32
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior [email protected] 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 1

Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Embed Size (px)

Citation preview

Page 1: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Tópicos Especiais:

INTELIGÊNCIA DE NEGÓCIOS II

Mineração de Dados

Sylvio Barbon [email protected]

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 1

Page 2: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Sumário

I Etapa II Inteligência de NegóciosI Visão Geral sobre Mineração de DadosI Input: Conceitos, Instâncias e AtributosI Etapas vinculadas à Mineração de DadosI Estudo de Caso 1: Segurança em Redes Sociais DigitaisI Output: Representação do Conhecimento

I Etapa III Algoritmos BásicosI Weka: Framework para Machine LearningI Avaliando os ResultadosI Estudo de Caso 2: Produção de Uvas

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 2

Page 3: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Inteligência de NegóciosBI - Business Intelligence

I Definição: Processo de coleta, organização, análise, compartilhamento,monitoramento de informação que oferecem suporte a gestão de negócios.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 3

Page 4: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Inteligência de NegóciosComparação de Terminologia

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 4

Page 5: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosData Mining - Mineração de Dados

I Volume de dados no qual temos acesso e geramos;I Redução dos custos de equipamentos de armazenamento;I Fácil disponibilidade e compartilhamento dos dados;I “As the volume of data increases, inexorably, the proportion of it that people

understand decreases alarmingly";I Distanciamento entre: compreensão e geração de dados;I Um objetivo mais direto da Mineração de Dados é solucionar problemas

analisando dados passados, presentes em um conjunto de dados (dataset);I Definição de Mineração de Dados: É o processo de descoberta de padrões

em dados. Este processo precisa ser automático ou semi-automático. Ospadrões reconhecidos precisam ser significativos e agregar vantagens.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 5

Page 6: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosMachine Learning - Aprendizado de Máquina

I O que é aprendizado?I Adquirir conhecimento por meio de estudos;I Tornar-se consciente por meio da informação ou observação;I Persistir na memória;I Informar-se sobre algo;I Receber instruções;

I Convertendo para computação: Conhecimento e Desempenho;I Definição de Aprendizado de Máquina: É uma sub-área da Inteligência

Artificial focada no desenvolvimento de algoritmos que podem aprender,melhorar, reconhecer e predizer novas informações baseando-se em dados.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 6

Page 7: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosExemplos de Áreas de Aplicação

I Web Mining:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 7

Page 8: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosExemplos de Áreas de Aplicação

I Apoio a Decisão Estratégica:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 8

Page 9: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Exemplos de Áreas de Aplicação

I Varredura de Imagens:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 9

Page 10: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosExemplos de Áreas de Aplicação

I Previsão de Consumo Energético:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 10

Page 11: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Visão Geral sobre Mineração de DadosExemplos de Áreas de Aplicação

I Diagnóstico por Imagem:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 11

Page 12: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Input: Conceitos, Instâncias e AtributosConceitos

I Conceito: Aquilo que se está tentando encontrar [Classe, Grupo, Rótulo];I Inteligibilidade: Capacidade de ser compreendido e discutido;I Operacional: Capacidade de ser aplicado a exemplos atuais;I Instância: É um indivíduo, um exemplo independente do conceito a ser

aprendido [Elemento, Exemplo, Amostra];I Atributos: São os valores que qualificam os aspectos de uma Instância

[Descritor, Característica, Valor];I Instâncias Multi-rótulos: Quando uma instância pertence a múltiplas

classes [ multilabeled instances];I Modelo: É a descrição da solução aprendidaI Aprendizado Supervisionado: É o nome dado as técnicas de aprendizado

baseados em exemplos rotulados, utilizados na fase de treinamento dosmodelos.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 12

Page 13: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Input: Conceitos, Instâncias e AtributosTipos de Atributos

I Atributos Nominais: “Relacionado a nomes”, podem ser símbolos oupalavras que relacionam-se as dimensões nos elementos. Exemplo:“marrom”, “vermelho”, “casado”, “divorciado”.

I Atributos Binários: São atributos que variam entre duas possibilidades.Normalmente são relacionados a presença ou ausência de uma categoria.Exemplo: “fumante” e “masculino”. Podem ser simétricos quando os valorestem o mesmo peso ou assimétricos quando os valores são de importânciasdiversas. Exemplos: gênero (simétrico) e HIV (assimétrico).

I Atributos ordinais: Estão relacionados a ordem ou ranking de algo. Podemser obtidos pela discretização de informações numéricas. Este atributo, assimcomo nominal e binário são qualitativos (que descrevem algo). Exemplo:tamanho como pequeno (1), médio (2) e grande (3).

I Atributos numéricos: É um atributo quantitativo, que mede quantidade dealgo e é representado por valores inteiros ou reais. Exemplo: temperatura,altura, pressão, velocidade etc. Devido a sua escala, pode-se computartendências estatisticamente.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 13

Page 14: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Input: Conceitos, Instâncias e AtributosTipos de Atributos

I Dados esparsos: Quando muitos atributos de uma instância são “0". Arepresentação destes dados se torna impraticável. Soluções identificação deatributos não zero normalmente são aplicadas. Exemplo:

I {0, X , 0, 0, 0, 0, Y , 0, 0, 0, “ClasseA”}I {1X , 6Y , 10“ClasseA”}

I Valores desconhecidos: São valores corrompidos ou que não estãopresentes no dataset. Medidas como atribuição pela média ou eliminação dainstância, são práticas para lidar com esse tipo de problema.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 14

Page 15: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Input: Conceitos, Instâncias e AtributosPadrão ARFF

I ARFF: Attribute-Relation File Format é um dos padrões para a criação dosdatasets para Mineração de Dados. É um arquivo de texto ASCII quedescreve um dataset, seus atributos e instâncias. Exemplo:@RELATION iris@ATTRIBUTE sepallength NUMERIC@ATTRIBUTE sepalwidth NUMERIC@ATTRIBUTE petallength NUMERIC@ATTRIBUTE petalwidth NUMERIC@ATTRIBUTE class Iris-setosa,Iris-versicolor,[email protected],3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 15

Page 16: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Etapas vinculadas à Mineração de DadosKDD

I Sistemas de Descoberta de Conhecimento: A Mineração de Dados é okernel de um sistema Knowledge Discovery System KDD

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 16

Page 17: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Etapas vinculadas à Mineração de DadosKDD

1. Seleção: Tem como objetivo agrupar, filtrar e obter os dados que serãominerados.

2. Pré-processamento: Tem o objetivo de melhorar a qualidade dos dados, istoé aumentar a Acurácia, Completitude, Consistência, Sequência, Credibilidadee Interpretabilidade.

I Data Cleaning (limpeza) [Valores ausentes, ruído]I Data Integration (integração) [Redundância, Conflitos e Correlação]I Data Reduction (redução) [Redução de Dimensão, Redução de Amostras]I Data Discretization (discretização) [Binning, Histograma, Árvore]

3. Transformação: Tem com objetivo agregar atributos, normalizar valores,construir e suavizar valores para contribuir na mineração dos dados.

4. ** Mineração de Dados **5. Interpretação, Avaliação e Visualização: Contempla mecanismos que

facilitam a exposição e validação do conhecimento obtido.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 17

Page 18: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Etapas vinculadas à Mineração de DadosProjeto de Mineração de Dados

I Modelo generalizado de projeto de Mineração de Dados.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 18

Page 19: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Estudo de Caso:Segurança em Redes Sociais Digitais

I Área de Mineração de Texto (mineração em base de dados textuais).

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 19

Page 20: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Estudo de Caso:Segurança em Redes Sociais Digitais

I IGAWA, R. A. Mineração de Texto e Wavelets na Classificação de Contas emRedes Sociais Digitais. 71 p. Qualificação de Mestrado (Mestrado em Ciênciada Computação) – Universidade Estadual de Londrina, Londrina–PR, 2015.

I Resumo:Para auxiliar a descoberta de fraudes em RSDs, este trabalhopropõe a classificação de contas baseada na TDW para detectar adisseminação de conteúdo textual de bots.O principal objetivo da classificação é distinguir os padrões de classes em:humanos, cyborgs ou bots. A abordagem proposta analisa a distribuição determos chaves enquanto mantêm custo computacional adequado para RSDs.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 20

Page 21: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Estudo de Caso:Segurança em Redes Sociais Digitais

I Dataset: Base de Tweets (mensagens do Twitter) relacionados a Copa doMundo de 2014.

I Classes: Humano, Cyborg, Bot e Humano, Não HumanoI Atributos: Descritores textuais (Comprimento do Corpus, Lexicon e

Coeficientes TDW)I Pré-processamento: Discretização com novo padrão de pesagem LBCA

(inovação)I Classificador: Random Forests (Ensemble de árvores) e Multilayer

Perceptron (ANN)I Resultado: 94% para HCB e 100% para HnH.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 21

Page 22: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Estudo de Caso:Segurança em Redes Sociais Digitais

I Modelo proposto:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 22

Page 23: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Estudo de Caso:Segurança em Redes Sociais Digitais

I Resultados:

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 23

Page 24: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoIntrodução

I Quando se obtém o conhecimento, representá-lo pode ser uma tarefacomplicada.

I Qual a diferença entre o gato e o cachorro? Crie um modelo!I Antes de se estudar o modelo de classificação, é necessário entender quais

são as saídas possíveis do processo de classificação.I Cada problema pode ser representado de uma maneira, assim como a

solução ou modelo para solucionar:I Tabelas;I Modelos Lineares;I ÁrvoresI Regras;I Baseada em Instância;I Aglomerado (cluters)

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 24

Page 25: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoTabelas

I Simples e mais rudimentar representação de conhecimento;I Exibição condensada de informações;I Tem como principal obstáculo decidir quais atributos afetam a decisão final;I É um elemento importante na descrição dos dados, porém para a descrição

de um modelo ou conhecimento adquirido não é tão adequado;

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 25

Page 26: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoModelos Lineares

I Para a Estatísticas os modelos lineares são chamados de regressão.I São fáceis de se visualizar em duas dimensões;I A “reta"representa o melhor ajuste para as dimensões relacionadas;I O modelo pode ser descrito por uma equação de reta. Exemplo:

desempenho = 37,06 + 2,47 cache;I Pode ser utilizado para a representação de classificação binária (2 classes)

de problemas. A linha é o limite (boundary ) entre cada classe.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 26

Page 27: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoÁrvores

I Abordagem "divisão e conquista"são melhor representados por árvores;I Os nós da árvore de decisão são definidos pelos atributos;I As folhas definem a classificação esperada;I A classificação é obtida percorrendo todos os nós até a folha que descreve a

classe;I Cada nó deve oferecer dois ou mais "caminhos"para seguir.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 27

Page 28: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoRegras

I É semelhante à árvore de decisão;I Tem nas extremidades do modelo a classe. É dividada em condições

antecedentes e consequentes (ou conclusão);I Diferente das árvores não são "comparações"são formulações ou expressões

lógias.I Apresentam soluções mais aprimoradas, complexas e otimizadas do que as

árvores.

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 28

Page 29: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoBaseado em Instância - Instance-Based

I É a técnica mais lenta (custosa computacionalmente);I As instâncias são avaliadas uma a uma;I Técnicas de distância e vizinhança são utilizadas (K-nearest-neighbor KNN)

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 29

Page 30: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Output: Representação do ConhecimentoAgrupamento - Clustering

I É uma das abordagens mais utilizadas;I A saída é um diagrama (dendograma) que representa a quantidade

diversificada de grupos;I Esta abordagem pode ser usada em pareceria com outras como Árvores e

Regras para verificar um caminho inicial (K-means).

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 30

Page 31: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Referências

I Imagens:I https : //datacleansingservices.files.wordpress.com/2013/04/web −mining −

services.jpgI https : //quadconsultancy .files.wordpress.com/2010/09/financial − planning −

decision − support − executive1.jpgI http : //www .sensum − project .eu/documents/17293/0/rs20tool .jpg?t =

1403610969811I https :

//www .otexts.org/sites/default/files/styles/large/public/elec3.jpg?itok =AEp1hRlF

I http ://www .simplifiqueocancer .com.br/wp−content/uploads/2015/06/exame1.jpg

I http : //www .zentut .com/wp − content/uploads/2012/10/kdprocess.pngI http : //free − stock − illustration.com/business + intelligence + dataI http : //scikit − learn.org/0.11/i mages/plotc lassification11.png

I Código Fonte ARFF: http : //www .cs.waikato.ac.nz/ml/weka/arff .html

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 31

Page 32: Mineração de Dados - · PDF fileSumário I Etapa I I Inteligência de Negócios I Visão Geral sobre Mineração de Dados I Input: Conceitos, Instâncias e Atributos I Etapas vinculadas

Referências

I Livros:I Konar, A. “Computational Intelligence: Principles, Techniques and Applications”

(2005)I Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008)I Witten, Ian H., and Eibe Frank. "Data Mining: Practical machine learning tools

and techniques". Morgan Kaufmann (2011)

26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 32