104
Mineração de Dados: Conceitos Básicos e Aplicações Leandro Nunes de Castro [email protected] @lndecastro Faculdade de Computação e Informática & Programa de Pós-Graduação em Engenharia Elétrica Laboratório de Computação Natural (LCoN) www.mackenzie.br/lcon.html SBAI 2011 (18/09/2011)

2011: Mineração de Dados - Conceitos Básicos e Aplicações

Embed Size (px)

DESCRIPTION

SBAI 2011 (Simpósio Brasileiro de Automação Inteligente), São João Del Rei, MG.

Citation preview

Page 1: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Mineração de Dados:Conceitos Básicos e Aplicações

Leandro Nunes de [email protected]

@lndecastro

Faculdade de Computação e Informática &Programa de Pós-Graduação em Engenharia Elétrica

Laboratório de Computação Natural (LCoN)www.mackenzie.br/lcon.html

SBAI 2011 (18/09/2011)

Page 2: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

2

Sumário

• Sobre o Mini-Curso• Motivação• Introdução• Pré-Processamento• Credibilidade do Processo de Aprendizagem• Análise de Grupos• Predição: Classificação e Estimação• Detecção de Anomalias• ShiftHappens

Page 3: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Quem Sou Eu

• Formado em Engenharia Elétrica com ênfase em Computação, possui Mestrado, Doutorado e Pós-doutorado em Engenharia de Computação. Empresário, empreendedor, acadêmico, escritor e pai de família. É especialista em Computação Natural e transformação de bases de dados em conhecimentos para a tomada de decisão estratégica nos negócios. Possui cinco livros publicados, coordena o Laboratório de Computação Natural (LCoN) do Programa de Pós-Graduação em Engenharia Elétrica do Mackenzie e é sócio-diretor das empresas NATCOMP e TUILUX.

Page 4: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Quem São Vocês

• Idade• Redes Sociais• Interesses• Formação• Conhecimento

Page 5: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Dinâmica do Mini-Curso

Aulas interativas e ilustradas com aplicações práticas, dinâmicas de grupo e sorteios do livro “Computação Natural: Uma Jornada Ilustrada”.

Preparados?

Page 6: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Motivação

Um Universo de Dados

Page 7: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

A Nova Realidade

Page 8: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Sobre Dados e Informação

Page 9: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Sobre Dados e Informação

Page 10: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Sobre Dados e Informação

Fonte: wikipedia.org

Page 11: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Introdução

Conceitos Básicos

Page 12: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

A Mineração de Dados

http://tr.toonpool.com/cartoons/miner_29770

Page 13: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

O Processo de Mineração

Page 14: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Multidisciplinaridade

Mineração de Dados

Bancos de Dados

Outras Disciplinas

Sistemas de Informação

Aprendizagem de Máquina

Visualização

Estatística

Inteligência Artificial

Page 15: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Estabelecer a significância prática e estatística da mineração.

• Reconhecer que as características da base de dados influenciam todos os resultados.

• Necessidade de conhecer os dados.• Busca pela parcimônia.• Verifique os erros.• Valide seus resultados.

Dicas para Uma Análise Efetiva

Page 16: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Inteligência Artificial• Aprendizagem de Máquina• Computação Flexível• Inteligência Computacional• Computação Natural• Computação Bioinspirada

As Diferentes Nomenclaturas

Page 17: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Descritivas: caracterizam as propriedades gerais dos dados; e

• Preditivas: fazem inferência com os dados objetivando predições.

Principais Tarefas

até R$ 1.434,59

até R$ 2.150,00

até R$ 2.866,70

até R$ 3.582,00

acima de R$ 3.582,01

2832 33 32

37

Salário: Faixa IRRF

Page 18: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Descrição de Classes e Conceitos• Agrupamento• Predição: Classificação e Estimação• Associação• Detecção de Anomalias

Principais Tarefas

Page 19: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Supervisionada• Não-Supervisionada• Reforço

Paradigmas de Aprendizagem

Page 20: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aprendizagem Supervisionada

{(xi,di)}i = 1,...,N, onde xi e di i, são os vetores de entrada e as respectivas saídas desejadas.

Sinal de erro

SupervisorSaída desejada

Saída atual

+

Vetor descrevendo oestado do ambiente

Ambiente

Sistema emAprendizagem

Page 21: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aprendizagem Não-SupervisionadaVetor de estado

do ambiente

AmbienteSistema em

Aprendizagem

Page 22: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aprendizagem por Reforço

Ações

Crítico

Reforçoprimário

Reforço heurístico

Vetor de estado(entrada)

Ambiente

Sistema emAprendizagem

Page 23: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Nomenclatura e Tipos de DadosSalário

R$Idade

Estado Civil

Cartão de Crédito

Imóveis VeículosNro de Filhos

Possui Cheque Especial

Financiamento

Pretendido

Credito

Autorizado

350 21 Sol. 0 0 0 0 Sim 10.000 Não

3700 52 Cas. 1 1 2 2 Sim 7.000 Sim

1200 26 Cas. 1 0 1 1 Não 10.000 Não

700 25 Sol. 0 0 0 0 Não 5.000 Sim

8500 50 Cas. 2 1 2 2 Sim 40.000 Sim

1800 27 Sol. 1 0 1 0 Sim 20.000 Não

350 20 Sol. 0 0 0 0 Não 10.000 Não

Objetos x AtributosTipos de Dados: Nominais, Ordinais, Numéricos

Page 24: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pré-Processamento

Page 25: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Problemas com Bases de DadosDuração 1 2 3 2

Aumento salarial ano 1 2% 4% 4.3% 4.5%

Aumento salarial ano 2 ? 5% 4.4% 4.0%

Aumento salarial ano 3 ? ? ? ?

Ajuste de custo de vida Nenhum Tcf ? Nenhum

Carga horária semanal 28 35 38 40

Aposentadoria Nenhum ? ? ?

Pagamento por horas vagas ? 13% ? ?

Horas extras ? 5% 4% 4

Adicional para educação Sim ? ? ?

Feriados 11 15 12 12

Férias Avg Gen Gen Avg

Assistência para ausência prolongada Não ? ? Sim

Seguro odontológico Nenhum ? Full Full

Seguro de vida Não ? ? Sim

Seguro saúde Nenhum ? Full Half

Aceitabilidade do contrato Ruim Boa Boa Boa

Page 26: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Problemas com Bases de Dados

Page 27: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Limpeza: para remoção de ruídos e correção de inconsistências;• Integração: para unir dados de múltiplas fontes em um único

local, como um armazém de dados (data warehouse);• Redução: para reduzir a dimensão da base de dados, por

exemplo, agregando, agrupando ou eliminando atributos redundantes, ou sumarizando os dados;

• Transformação: para deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração;

• Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores para um dado atributo contínuo seja reduzida.

Principais Tarefas

Page 28: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Credibilidade do Processo de Aprendizagem

Page 29: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Erro de Representação ou efeito bias.• Erro de Generalização ou variância.• Erro de Otimização.

Erros

MSE

erro

nível ótimo degeneralização

bias elevado variânciaelevada

Page 30: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Sobretreinamento

-3 -2 -1 0 1 2 3

-1.0

-0.8

-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Page 31: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Como critério de parada• Como metodologia de estimação de erro

Validação Cruzada

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10

Teste Treinamento

Passo 1:

Passo 2:

1 2 3 4 5 6 7 8 9 10 Passo 10:

. . .

Page 32: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Medidas de Desempenho em Classificação

Classe Predita

Sim Não Sim TP FN

Classe Correta

Não FP TN

TP: Verdadeiro PositivoFP: Falso PositivoTN: Verdadeiro NegativoFN: Falso Negativo

FNTP

TP

P

TPTPR

TNFP

FP

N

FPFPR

FNTNFPTP

TNTPACC

Page 33: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Medidas de Desempenho em Estimação

N

jje

1

2

N

jjeN 1

21

N

jjeN 1

21

N

jjeN 1

||1

N

jj

N

jj

N

jjj

yydd

yydd

1

2

1

2

1

)(.)(

))((

Soma dos Erros Quadráticos

Erro Quadrático Médico

Raiz do Erro Quadrático Médio

Erro Absoluto Médio

Coeficiente de Correlação

Page 34: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Medidas de Desempenho em Agrupamento

k

i r

ir

r

ir

r n

n

n

n

kSE

1

loglog

1)(

k

rr

rglobal SE

n

nE

1

)(

)(max1

)( ir

ir

r nn

SP

k

rr

rglobal SP

n

nP

1

)(

G1

G2

G3

Page 35: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Desafio 01

Avaliando a Taxa de Classificação

Page 36: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Considere o problema de detecção de Spams (SPAM). A classe alvo é Spam. Assuma que a base possui N = 1.500 objetos, sendo nspam = 32. Considere o seguinte resultado de um algoritmo de classificação aplicado a esta base de dados:

• Spam classificados corretamente: 27.• E-mail normal classificado corretamente: 1.411.Pede-se:• Determine TPR, FPR, ACC.• Monte a matriz de confusão do classificador.

Detecção de Spam

Page 37: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 01 Descrição de Classes e Conceitos

Dados do Reclame Aqui

Page 38: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Panorama Geral do Setor

7%

31%

19%24%

20%

Status das Reclamações

Nao RespondidoRespondidoReplicasFinalizada - ResolvidoFinalizada - Nao Resolvido

Média Geral Média ">0"

3.9

5.3

0.5

2.6

Média das Notas

Finalizada - Resolvido Finalizada - Nao Resolvido

Page 39: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Panorama Geral do Setor

centra

l

financia

mento

portal

processo

públicodúvid

a

contra

to

resposta

depart

amen

to site

solic

itaçã

o

telefo

ne

atendim

ento

disposiç

ão

esclar

ecim

ento

contat

o

reclam

ação

informaç

ão

relac

ionamen

tocli

ente

2% 2% 2% 2% 2% 2% 2% 3% 3% 4% 4% 5% 5% 5% 5% 5% 6%

10%

13%

17%

Construção Civil - Piores Atendimentos

Page 40: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Panorama Geral do Setor

clien

te

relac

ionamen

to

informaç

ão

reclam

ação

contat

o

esclar

ecim

ento

disposiç

ão

telefo

nesit

e

depart

amen

to

atendim

ento

resposta

solic

itaçã

o

qualidad

e

públicodúvid

aporta

l

serviç

o

preocu

pação

prestar

17%

13%

9%

6% 6% 6% 6%4% 4% 4% 4% 3% 3% 2% 2% 2% 2% 2% 2% 2%

Construção Civil

Page 41: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 02 Descrição de Classes e Conceitos

Base de RH

Page 42: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• 41.934 registros, com os seguintes atributos: Nome, Salário, Sexo, Cargo, Endereço, Bairro, CEP, Cidade, UF, Banco, Nome do Banco, Agência, Conta, Data de Nascimento, Escala, Grau de Instrução, Data de Admissão, Data de Demissão, Data de Afastamento, Data de Início de Férias, Situação Cadastral, Horas Trab. por Mês e Horas Trab. por Semana.

Base de Análise

Page 43: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Entender a base• Predizer demissões e período de trabalho• Segmentar a base

Objetivos

Page 44: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Visão Geral

Masculino34%

Feminino66%

Sexo

Afastamento Férias Normal Rescisão

1% 2%

33%

64%

Situação Cadastral

Page 45: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Visão Geral

Ensino médio completo82.69%

Outros17.31%

Grau de Instrução

até R$ 1.434,59

até R$ 2.150,00

até R$ 2.866,70

até R$ 3.582,00

acima de R$ 3.582,01

98.2%

1.3% 0.3% 0.1% 0.1%

Salário: Faixa IRRF

Page 46: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Visão Geral

0 a 4 anos

10 a 14 anos

20 a 24 anos

30 a 34 anos

40 a 44 anos

50 a 54 anos

60 a 64 anos

70 a 74 anos

80 a 84 anos

90 a 94 anos

100 anos e mais

0.0%0.0%0.0%

11.6%34.4%

22.5%12.3%

7.3%4.9%

3.4%2.2%

1.0%0.3%0.0%0.0%0.0%0.0%0.0%0.0%0.0%0.0%

Pirâmide Etária

PROMOTOR(A) DE VENDASSERVIÇOS GERAIS

ATENDENTEAJUDANTE GERALAUXILIAR DE LOJA

PROMOTOR(A)DEMONSTRADOR(A)

ATENDENTE DE CRÉDITOAUXILIAR DE VENDAS

AUXILIAR DE SERVIÇOS GERAISAUXILIAR DE CAIXA

DEMONSTRADOR(A) ICOLETOR(A) DE DADOSASSISTENTE DE VENDAS

OUTROS CARGOS

23%13%

7%6%5%

4%4%

3%2%2%2%2%2%2%

23%

Cargos

Page 47: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Visão Geral

Pós-Graduação

Educação superior completa

Educação superior incompleta

Segundo grau técnico completo

Segundo grau técnico incompleto

Ensino médio completo

Ensino médio incompleto

Ensino fundamental completo

Da 5ª à 8ª série do ensino fundamental

4ª série completa do ensino fun damental

Até a 4ª série incompleta do ensino fundamental

Analfabeto, ou não se alfabetizou

R$ 2,793.32

R$ 1,299.32

R$ 903.56

R$ 777.04

R$ 628.36

R$ 755.58

R$ 679.76

R$ 637.15

R$ 618.43

R$ 620.17

R$ 608.91

R$ 624.74

Grau de Instrução

Page 48: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Uma Análise PreditivaInstrução

Idade

[1 2 3 4 7]

Idade

[5 6 8 9 10 11 12]

[1 2 3 4]

Instrução

[1 2 3] [4 5]

Idade Idade

Normal

[5]

Normal Rescisão

[2 7][1 3 4]

Rescisão

[1 2]

Sexo

[3]

Salário

Salário

[5]

[4]

Salário

[Masculino]

Rescisão

[Feminino]

Normal Rescisão

[1 4 5][2 3]

Rescisão Normal

Normal Rescisão

[ 2 3 5]

[1 4 5][2 3]

[1 4]

Page 49: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Análise de Grupos

Page 50: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

O Que São Grupos?

Processo de particionar um conjunto de dados em subconjuntos (clusters) de forma que os dados em cada cluster (idealmente) compartilhem características comuns – normalmente proximidade em relação a alguma medida de distância.

Page 51: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Pré-processamento dos dados;• Definição da medida de proximidade;• Agrupamento;• Abstração dos dados;• Avaliação da saída.

Componentes da Tarefa de Agrupamento

NLN

L

xx

xx

1

111

0)1,()2,()1,(

0

0)2,3()1,3(

0)1,2(

0

NNdNdNd

dd

d

Page 52: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 03 Agrupamento

Benchmarks e Base de Dados de Bioinformática

Page 53: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

ACA: Ant Clustering Algorithm

Page 54: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

ACA: Ant Clustering Algorithm

2

1

1

fk

kp p

2

2

fk

fpd

otherwise0

0 ifα

),(1

1)(

)(Neigh2

)(

fd

sfr

ji

issjx

xxx

Ver demos no LVCoN

Page 55: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Base de Dados de Bioinformática

0

C3

C1 C1

C2

C4

Page 56: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Predição

Classificação e Estimação

Page 57: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

ClassificaçãoIdade Prescrição

Astigmatismo

(A)TPL Lente recomendada

Jovem Miopia Não Reduzida Nenhuma

Jovem Miopia Não Normal Macia

Jovem Miopia Sim Reduzida Nenhuma

Jovem Miopia Sim Normal Rígida

Jovem Hipermetropia Não Reduzida Nenhuma

Pré-presbiótico Miopia Não Reduzida Nenhuma

Pré-presbiótico Miopia Não Normal Macia

Pré-presbiótico Hipermetropia Sim Reduzida Nenhuma

Pré-presbiótico Hipermetropia Sim Normal Nenhuma

Presbiótico Miopia Não Reduzida Nenhuma

Presbiótico Miopia Não Normal Nenhuma

Presbiótico Hipermetropia Sim Reduzida Nenhuma

Presbiótico Hipermetropia Sim Normal Nenhuma

Page 58: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Árvores de Decisão

Prescrição

TPL

Astigmatismo Nenhuma

Nenhuma Rígida

Macia

Reduzida Normal

Não Sim

Miopia Hipermetropia

Page 59: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Árvores de DecisãoDuração 1 2 3 2

Aumento salarial ano 1 2% 4% 4.3% 4.5%

Aumento salarial ano 2 ? 5% 4.4% 4.0%

Aumento salarial ano 3 ? ? ? ?

Ajuste de custo de vida Nenhum Tcf ? Nenhum

Carga horária semanal 28 35 38 40

Aposentadoria Nenhum ? ? ?

Pagamento por horas vagas ? 13% ? ?

Horas extras ? 5% 4% 4

Adicional para educação Sim ? ? ?

Feriados 11 15 12 12

Férias Avg Gen Gen Avg

Assistência para ausência prolongada Não ? ? Sim

Seguro odontológico Nenhum ? Full Full

Seguro de vida Não ? ? Sim

Seguro saúde Nenhum ? Full Half

Aceitabilidade do contrato Ruim Boa Boa Boa

Page 60: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Árvores de Decisão

Aumento Ano 1

Aumento Ano 1

Feriados Ruim

Bom Ruim

Bom

2.5% > 2.5%

> 10 10

4% > 4%

Page 61: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Árvores de Decisão

Seguro Saúde

Aumento Ano 1

Aumento Ano 1 Ruim

Bom Ruim

Bom

2.5% > 2.5%

> 10 10

4 > 4

Carga Horária Feriados

36 > 36

Ruim Bom Ruim

Nenhum Parcial Total

Page 62: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 04 Agrupamento e Predição

Base de Dados de Veículos

Page 63: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aplicação em Agrupamento

Page 64: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aplicação em Classificação

Page 65: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Aplicação em Estimação

Page 66: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 05 Análise de Sentimento em Tweets

Dados da Rede Globo

Page 67: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Para realizar as análises a serem apresentadas foram utilizados 206.259 tweets de 127.945 usuários entre os dias 1 e 31 de dezembro de 2010.

• Os atributos disponíveis para essa análise foram: Cliente, Avaliação, Termo, Usuário, Texto e Data.

Base de Análise

Page 68: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Domingão do Faustão

restar

t

gustt

avo

vieira luan

palco

vivo

amores

inventor

kingo cin

e

platina

rockres

tart

mundoam

ore

peitinho

banda

justinbieb

er

vitoria

biber

youtube

segunda

11%

8% 8%

7% 7% 6% 6% 6% 6% 5%4% 4% 4% 4%

3% 3%2% 2% 2% 2%3% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0%

Palavras mais comentadas - Domingão do Faustão

Total Top 20 Total Twitters

Page 69: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Comentários Positivos

profissao

ascari

ocas

esporte

programa

clandesti

noshuck

mulheres

misturad

oxu

xaalt

as

passione

melhor

adoro

familia

aragu

aiajornal

legal

paraben

sad

orei

demais

13%

11%10%

7% 7%6% 6%

5% 5%4% 3% 3% 3% 3% 3% 3% 3% 2% 2% 2%

3% 3% 3%2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0%

Palavras mais comentadas - Tweets positivos

Total Top 20 Total Twitters

Page 70: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Comentários Negativos

casse

tazo

rra

malhaç

ão

passione

globinho

fausta

o

aragu

aia

acab

ar

novela

merda

acab

ou

querem pior

melhor

nunca

reporte

r

apres

entad

ores

twitter

familia xu

xa

27%

16%

8%5% 5% 4% 4% 3% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 2% 2%

6%3%

2% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0% 0% 0% 0% 0% 0% 0% 0%

Palavras mais comentados - Tweets negativos

Total Top 20 Total Twitters

Page 71: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

InfluenciadoresId Usuários Qtde de

TweetsPercentual de

Tweets (%)Qtde de

SeguidoresQtde de Seguidos

1 adnoticia 253 0,12% 175 2192 annoticia 256 0,12% 271 3503 comuniquebrinde 170 0,08% 1.211 1.9674 feedrssreader 192 0,09% 350 2455 g1 389 0,19% 467.484 216 mariana_viips 155 0,08% 694 677 news_mundo_ 224 0,11% 281 8958 novinhabru 320 0,16% 2.992 1.9639 romariontv 177 0,09% - -

10 segundoplanobr 151 0,07% 347 711 siteg1 207 0,10% 60 -12 sjodiel_indica 262 0,13% 855 61513 standupbot 384 0,19% 386 -14 tudodoesporte 522 0,25% 894 36615 tweets24hs 158 0,08% 2.940 3.25816 vidasemglobo 147 0,07% 600 17717 waldeterossi 313 0,15% 70 1318 zocialtv_br 242 0,12% 338 11519 _invo 720 0,35% 342 22

TOTAL: 5.242 2,54%

Page 72: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Segmentando os Influenciadores

Page 73: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Segmentando os Influenciadores

Grupo 1

adnoticia

annoticia

g1

news_mundo_

siteg1

waldeterossi

_invo

Grupo 2

comuniquebrinde

feedrssreader

segundoplanobr

sjodiel_indica

tweets24hs

Grupo 3

mariana_viips

novinhabru

romariontv

standupbot

tudonoesporte

vidasemglobo

zocialtv_br

Page 74: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Análise dos Grupos

Grupo Palavras

1Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal, pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados, justiça, preso.

2Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks, Dilma, mundial, justiça, policia, brasileiros, segurança, temporais, projeto, risco, Cielo, prisão.

3Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo, twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy, zilza, vote, malhação.

Page 75: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Regras de Associação

Page 76: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Análise de Carrinho de Supermercado

Leite Pão Cereais Manteiga

Leite Broa Cereais Chocolate

Pão Café

Ovos Açúcar Pão Café I ogurte Adoçante

Page 77: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 06Recomendação em Comércio Eletrônico

Alguns Clientes TUILUX

Page 78: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

78

O Que é um Sistema de Recomendação Inteligente?

Page 79: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

79

“Para o usuário a recomendação significa um guia útil no processo de

escolha de conteúdo...

Para a loja a recomendação significa ofertar o item mais atraente alguns

segundos antes da perda da atenção da audiência” *

* Fonte: Comparative Rating of Five Recommendations Solutions, Patricia Seygold Group

Page 80: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

80

Page 81: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

81

Visão Geral sobre Serviços de Recomendação

1. Capturar informação sobre os produtos

2. Capturar informação sobre as interações dos usuários

3. Aplicar algoritmos de seleção de produtos

4. Mostrar o conteúdo selecionado

5. Monitorar e analisar a efetividade da recomendação

Page 82: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

82

Página de Produto: Exemplos

Regras de negócio

Cross-sellO que nem os clientes sabiam que queriam

Page 83: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Detecção de Anomalias

Page 84: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

“Um outlier é um objeto que parece desviar fortemente de outros membros da amostra a qual ele pertence.” (Grubbs, F. E., 1969, “Procedures for detecting outlying observations in samples”, Technometrics, 11, pp. 1-21.)

“Um outlier é um objeto ou subconjunto de objetos que parece inconsistente com o restante da base de dados.” (Barnett, V.; Lewis, T. 1994, Outliers in Statistical Data, 3rd ed., John Wiley & Sons)

O Que é uma Anomalia?

Page 85: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Detecção de fraudes: em transações de cartões de crédito, em uso de telefones celulares, em medição de consumo de energia, etc.

• Análise de crédito: identificação de clientes potencialmente problemáticos ou fraudulentos, etc.

• Detecção de intrusão: acesso não permitido a redes de computadores e ambientes diversos, etc;

• Monitoramento de atividades: negociações suspeitas em mercados financeiros, comportamentos incomuns de usuários, etc;

• Desempenho de rede: monitoramento do desempenho de redes de comunicação para identificação de gargalos;

Exemplos

Page 86: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Diagnóstico de faltas: em motores, geradores, redes, instrumentos, etc;

• Análise de imagens: identificação de novas características;

• Monitoramento de séries temporais: em aplicações que envolvem séries temporais, por exemplo, consumo de energia elétrica de subestações, análise de batimentos cardíacos, etc.;

• Análise de textos: identificação de novas estórias, análise de desempenho de commodities, etc.

Exemplos

Page 87: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Tipo 1: aprendizagem não-supervisionada;• Tipo 2: aprendizagem supervisionada;• Tipo 3: aprendizagem semi-supervisionada.

Adordagens

Page 88: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 07

Um Algoritmo Imunológico para Detecção de Vírus em Computadores

Page 89: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Algoritmo de Seleção Negativa

Selfstrings (S)

Generaterandom strings

(R0)Match Detector

Set (R)

Reject

No

Yes

No

Yes

Detector Set(R)

SelfStrings (S)

Match

Non-selfDetected

Sensoriamento

Monitoramento

Page 90: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Estudo de Caso 08

Sistemas Imunológicos Artificiais

Page 91: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pattern Recognition

• Classification and Clustering– CLONALG (de Castro & Von Zuben, 2002)

( a ) I n p u t p a t t e r n s

( b ) 0 g e n e r a t i o n s

( c ) 5 0 g e n e r a t i o n s

( d ) 1 0 0 g e n e r a t i o n s

( e ) 2 0 0 g e n e r a t i o n s

Page 92: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

92

Pattern Recognition• Classification and Clustering

– aiNet (de Castro & Von Zuben, 2001)– Definition:

• aiNet is an edge-weighted graph, not necessarily fully connected, composed of a set of nodes and sets of node pairs with a weight assigned specified to each connected edge.

– Features:• knowledge distributed among cells• competitive learning (unsupervised)• constructive model with pruning phases• generation and maintenance of diversity

Page 93: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pattern Recognition

• aiNet:– Growing:

• clonal selection principle

– Learning:• directed affinity maturation

– Pruning:• immune network theory

Page 94: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pattern Recognition• aiNet at each generation:

– For each Ag Affinity with the antigen (Ai) Agi-Ab Clonal selection (n cells) Ai

Cloning Ai

Directed maturation (mutation) 1/Ai

Re-selection (%) Ai

Natural death (d) 1/Ai

Affinity between the network cells (Dii) Ab-Ab Clonal suppression (s) Dii : (m - memory) Mt [Mt;m]

– Network suppression (s) Dii : (M Mt)– M [M;meta]

Page 95: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pattern Recognition

• Clustering

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Training Patterns

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

1

23

4

5

6

7

8

9

10

11

12

13

14

Final Network Structure

Page 96: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Pattern Recognition

• Clustering

-2-1

01

2

-2

0

2

4-1.5

-1

-0.5

0

0.5

1

1.5

-1-0.5

00.5

1

-10

12

3-1

-0.5

0

0.5

1

1.5

Final Network Structure

Page 97: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Desafio 02

Questões sobre o Processo de Mineração

Page 98: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Questão Processo Mineração

• Qual o fluxo (faça o gráfico) das principais etapas da mineração de dados e quais as principais tarefas?

Page 99: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

ShiftHappens

Page 100: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

ShiftHappens

Page 101: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Questões ShiftHappens

• Quantos e-mails e SMSs em média uma pessoa de 21 anos já enviou/recebeu?

• Quanto tempo a Internet levou para atingir uma audiência de 50 milhões pessoas?

Page 102: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

• Programa de Pós-Graduação em Engenharia Elétrica do Mackenzie

• Perfil do LCoN, Pesquisa, Equipe, etc.

LCoN

www.mackenzie.br/lcon.html

Page 103: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Discussão

Page 104: 2011: Mineração de Dados - Conceitos Básicos e Aplicações

104

Obrigado

Leandro Nunes de [email protected]

@lndecastro