2008: Introdução à Mineração de Dados

  • View
    269

  • Download
    2

Embed Size (px)

Text of 2008: Introdução à Mineração de Dados

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    Introduo Minerao de Dados

    Slides do Curso Completo

    Copyright 2008 by Leandro Nunes de Castro Este material foi desenvolvido com base em diversas referncias da literatura, incluindo:

    WITTEN, I.H.; FRANK, E. Data Mining: Practical Machine Learning Tools and

    Techniques. Morgan Kauffman, 2005. HAN, J.; KAMBER, M. Data Mining, Concepts and

    Techniques. Morgan Kauffman, 2001. DE CASTRO, L. N., Fundamentals of Natural

    Computing: Basic Concepts, Algorithms, and Applications. CRC Press, 2006. WESTPHAL,

    C.; BLAXTON, T. Data Mining Solutions: Methods and Tools for Solving Real World

    Problems, John Wiley & Sons, 1998. TRIOLA, M. F. Introduo Estatstica. 7. ed. LTC

    Livros Tcnicos e Cientficos Editora S.A., 1999. Cluster Analysis. 4th Ed., Arnold.

    HRUSCHKA ET AL., A Survey of Evolutionary Algorithms for Clustering, IEEE Trans. On Syst., Man, and Cyb. Part C, 39(2), pp. 133-155, 2009. Hodge, V. J.; Austin, J. (2004), A Survey of Outlier Detection Methodologies, Artificial Intelligence Review, 22, pp. 85-126. H tambm contribuies obtidas a partir de trabalhos do Prof. Dr. Eduardo Raul Hruschka. E

    partes retiradas da empresa TUILUX da qual fui co-fundador e de dissertaes e teses

    orientadas por mim nas instituies s quais estive vinculado at hoje.

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    A primeira verso destes slides foi gerada em 2008 quando introduzi a disciplina Minerao de

    Dados no Programa de Ps-Graduao em Engenharia Eltrica da Universidade Mackenzie,

    instituio qual estou vinculado atualmente. Desde 2008 esse material vem sendo aprimorado

    e atualizado para se adequar s necessidades dos alunos e incluir algumas das novidades da

    rea. O uso deste material para fins acadmicos livre e gratuito, desde que sejam mantidas as

    informaes originais de autoria. A sugesto de citao : L. N. de Castro, Introduo Minerao de Dados, Material de Apoio do Curso Minerao de Dados do PPGEE-

    Universidade Mackenzie, Disponvel online em http://www.slideshare.net/lndecastro, p. 403,

    Baixado em XX/XX/XXXX. Outros cursos do autor, como Fundamentos de Computao Natural, Introduo s Redes Neurais Artificiais e A Nova Escola do Empreendedorismo esto disponveis no mesmo Slideshare. Mais informaes sobre o tema podem ser encontradas

    no site do Laboratrio de Computao Natural (LCoN): http://www.mackenzie.br/lcon.html.

    Uma verso significativamente estendida, melhorada e corrigida deste material tambm ser

    publicada sob a forma de livro entre o final de 2015 e incio de 2016 com a parceria do Dr.

    Daniel Ferrari.

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    Sumrio Sumrio ...................................................................................................................... 3

    Introduo ................................................................................................................. 10

    1. Introduo ......................................................................................................... 10

    1.1. As Diferentes Nomenclaturas ................................................................... 10

    2. Motivao e Conceitos Bsicos ........................................................................ 20

    2.1. A Minerao de Dados como um Processo ............................................... 27

    2.2. Dicas para uma Anlise Eficiente e Eficaz ............................................... 32

    3. Algumas Aplicaes Prticas ........................................................................... 36

    3.1. Predio de Pagamento de Emprstimos e Anlise de Crdito ................. 38

    3.2. Classificao e Agrupamento de Clientes ................................................. 38

    3.3. Preveno Lavagem de Dinheiro e outros Crimes Financeiros .............. 39

    3.4. Combate a Perdas No-Tcnicas de Energia Eltrica ............................... 40

    3.5. Segmentao de Curvas de Carga em Sistemas de Energia Eltrica ......... 43

    3.6. Anlise de Dados e Recomendao de Primeiro e Segundo Cursos ......... 45

    3.7. Direito Ambiental ..................................................................................... 46

    4. Principais Tarefas ............................................................................................. 47

    4.1. Descrio de Classes/Conceitos: Caracterizao e Discriminao ........... 48

    4.2. Associao ................................................................................................ 50

    4.3. Predio: Classificao e Estimao ......................................................... 52

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    4.4. Agrupamento ............................................................................................ 54

    4.5. Deteco de Anomalias ............................................................................ 56

    5. Paradigmas de Aprendizagem .......................................................................... 57

    5.1. Aprendizagem Supervisionada ................................................................. 61

    5.2. Aprendizagem No-Supervisionada ......................................................... 62

    5.3. Aprendizagem Por Reforo ...................................................................... 63

    Pr-Processamento de Dados .................................................................................... 64

    1. Introduo ......................................................................................................... 64

    2. Nomenclatura e Tipos de Dados ....................................................................... 66

    2.1. Exemplos de Bases de Dados ................................................................... 68

    2.2. Sobre os Atributos .................................................................................... 76

    3. Pr-Processamento dos Dados .......................................................................... 79

    3.1. Limpeza dos Dados................................................................................... 81

    3.2. Integrao dos Dados ................................................................................ 85

    3.3. Reduo dos Dados................................................................................... 89

    3.4. Transformao dos Dados ...................................................................... 115

    3.5. Discretizao .......................................................................................... 122

    Credibilidade do Processo de Aprendizagem ......................................................... 127

    4. Introduo ....................................................................................................... 127

    5. Treinamento e Teste ....................................................................................... 132

    5.1. Aprendizagem Supervisionada como Aproximao de Funes ............ 133

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    5.2. Validao Cruzada como Critrio de Parada .......................................... 137

    6. Validao Cruzada .......................................................................................... 139

    7. Avaliao de Desempenho ............................................................................. 144

    7.1. Tarefas de Classificao ......................................................................... 145

    7.2. Tarefas de Estimao .............................................................................. 158

    7.3. Tarefas de Agrupamento ......................................................................... 163

    7.4. Tarefas de Associao ............................................................................ 170

    Conceitos em Estatstica Descritiva ........................................................................ 173

    8. Introduo ....................................................................................................... 173

    9. Distribuies de Frequncia ........................................................................... 176

    9.1. Construo da Distribuio de Frequncia ............................................. 178

    9.2. Distribuio de Frequncia Relativa e Acumulada ................................. 180

    10. Visualizao de Dados .................................................................................... 181

    10.1. Histogramas ............................................................................................ 182

    10.2. Polgono de Frequncias ......................................................................... 184

    10.3. Ogiva ...................................................................................................... 184

    10.4. Grfico de Pareto .................................................................................... 185

    10.5. Grfico de Setores .................................................................................. 187

    10.6. Grfico de Disperso .............................................................................. 188

    11. Medidas de Centro .......................................................................................... 190

    12. Medidas de Variao ...................................................................................... 194

  • Introduo Minerao de Dados

    Copyright Leandro Nunes de Castro

    13.