Transcript
  • LUIS PAULO VIEIRA BRAGA

    Introduo Minerao de Dados

    2 edio revista e ampliada

    Rio de Janeiro, 2005

  • Luis Paulo Vieira Braga / E-papers Servios Editoriais Ltda., 2005.Todos os direitos reservados Luis Paulo Vieira Braga / E-papers Servios Editoriais Ltda. proibida a reproduo ou transmisso desta obra, ou parte dela, por qualquer meio, sem a prvia autorizao dos editores.Impresso no Brasil.

    SPSS, SAS, Microsoft, IBM, Harley-Davidson e outros nomes de empresas so marcas registradas.

    1 edio: 20042 edio: 2005

    ISBN: 85-7650-035-3

    Projeto gr co, diagramao e CapaLivia Krykhtine

    Reviso de texto Elisa SankuevitzHel CastroMrio Jos de Oliveira

    Esta publicao encontra-se venda no site da E-papers Servios Editoriais.http://www.e-papers.com.brE-papers Servios Editoriais Ltda.Rua Mariz e Barros, 72, sala 202Praa da Bandeira Rio de JaneiroRio de Janeiro BrasilCEP 20.270-006

    Braga, Luis Paulo Vieira Introduo Minerao de Dados/ Luis Paulo Vieira Braga. 2 edio revista e ampliada. Rio de Janeiro: E-Papers Servios Editoriais, 2005. 212 p.

    1. Banco de Dados I. Ttulo 311.07

  • Sumrio

    9 Prefcio

    11 Introduo

    15 KDD e Minerao de Dados16 De nio do problema 16 Aquisio e Avaliao dos dados 17 Extrao de caractersticas e realce 17 Plano de prototipagem, prototipagem e

    desenvolvimento do modelo 17 Avaliao do modelo 17 Implementao 17 Avaliao do retorno do investimento (ps-projeto)

    19 Bancos de Dados para Minerao de Dados Data warehouse, Data mart e Data webhouse

    23 A Construo de Modelos no Processo KDD/DM23 Problema

    27 Tratamento de Dados para DM27 De nio da Populao28 Amostragem31 Triagem dos Dados32 Transformao dos Dados

    37 Mtodos para Modelagem37 Seleo do Mtodo44 Anlise de Regresso no-Linear46 Regresso Logstica48 rvores de Classi cao

    PERTENCE A NOME DO CLIENTE

  • 52 Redes Neurais58 Anlise Discriminante61 Anlise de Similaridade e de Conglomerados68 Anlise de A nidade

    73 Plano de Prototipagem73 Plano de Prototipagem, Prototipagem e

    Desenvolvimento do Modelo

    79 Validao do Modelo79 Validao

    83 Implementao83 Implementao

    85 Retorno do Investimento (ROI)

    89 Exemplos89 A Partir de uma Base de Clientes, para Quais Enviar

    um Novo Catlogo?90 Penetrao no Mercado90 Classi cao para Clientes de um Carto de Crdito91 Previso de Vendas para uma Campanha Promocional92 Modelando Risco

    93 Bibliogra a

    95 Anexo I Repositrios de Dados na Internet

    97 Anexo II Pacotes Computacionais em Minerao de Dados

    99 Anexo III Anteprojeto de Minerao de Dados

    103 Anexo IV Estudos de Caso104 AIV.1 Classi cao de doadores potenciais da

    Paralyzed Veterans of America110 AIV.2 Identi cao de padres no acesso s pginas

    do site MSNBC117 AIV.3 Identi cao de per s em basede dados de

    acidentes de trabalho126 AIV.4 Aquisio de Seguros135 AIV.5 Projeto de minerao de dados para

    categorizao de clientes de uma instituio nanceira

    PERTENCE A NOME DO CLIENTE

  • 156 AIV.6 Classi cao Supervisionada de Crdito em um Banco na Alemanha

    163 AIV-7 Predio do Interesse pela Compra de Seguro de Trailers

    193 AIV-8 Sistema de Deteco de Intruso

    205 Anexo V Estatstica do Quiquadrado para alguns Atributos

    207 Anexo VI Transformaes matemticas

    209 Anexo VII Exemplos de taxas de acerto e matrizes de confuso

    PERTENCE A NOME DO CLIENTE

  • ndice de Figuras

    13 Figura 1.1. Tipos de Negcios Eletrnicos15 Figura 2.1. KDD20 Figura 3.1. Sistemas para Business Intelligence22 Figura 3.2. Banco Relacional versus Multidimensional31 Figura 5.1. Outliers38 Figura 6.1. Resduos versus estimativas44 Figura 6.2. Regresso No-linear45 Figura 6.3. Superfcie de Regresso46 Figura 6.4. Regresso Logstica49 Figura 6.5. rvore de Classi cao51 Figura 6.6. rvore de Classi cao do exerccio52 Figura 6.7. Modelo de um neurnio53 Figura 6.8. Rede neural58 Figura 6.9. Funo discriminante 64 Figura 6.10. Anlise de agrupamento66 Figura 6.11. Dendograma67 Figura 6.12. Mtodo das K-mdias69 Figura 6.13. Caminhos em sites

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 9

    meu primeiro contacto com Minerao de Dados, no sentido estrito que este jargo passou a ser utilizado, se deu durante o perodo em que cursei o MBA em Comrcio Eletrnico da

    FGV-RJ no ano de 2001. Por outro lado minha experincia com an-lise de dados em cincias da natureza de cerca de 20 anos. Coin-cidentemente ou no, eu j trabalhava com dados em minerao e passei ento a trabalhar com minerao de dados. Nesse texto o termo ser utilizado no contexto do mundo dos negcios, embora as tcnicas de minerao de dados possam tambm ser aplicadas em reas sociais, alguns estudos de caso contemplam exatamente este segmento.

    O assunto est exposto em 11 captulos, alm da bibliogra a e quatro anexos. A meta apresentar a metodologia para o de-senvolvimento de um projeto em minerao de dados, de modo que o leitor que apto a formular um projeto de acordo com as necessidades da organizao para a qual trabalha. No ensinado nenhum particular pacote computacional, mas aps o estudo do material apresentado, o leitor certamente saber utilizar melhor as facilidades que a maioria dos bons pacotes oferece. Estudantes de graduao em economia, administrao, marketing, engenharia, matemtica, estatstica e informtica, alm de pro ssionais que trabalhem nestas reas podem se bene ciar do texto, tomando contacto com uma ferramenta que est se tornando cada vez mais presente no mercado de trabalho.

    O texto, agora em sua segunda edio, vem sendo utilizado na disciplina Minerao de Dados que tenho oferecido a nvel de graduao, ps-graduao ou extenso no Instituto de Matemtica

    Prefcio

    O

    PERTENCE A NOME DO CLIENTE

  • 10 Prefcio

    da Universidade Federal do Rio de Janeiro. Muitas melhorias foram introduzidas em relao edio anterior: cinco novos estudos de caso, sees adicionais cobrindo mais tcnicas, melhoria do texto, entre outras.

    Agradeo os comentrios, contribuies e crticas de colegas e estudantes, dentre eles: Adriano Moutinho, Airam Carlos Pais Barreto Marques, Alexander Lima da Silva, Alexandra Ribeiro Men-des de Almeida, Anderson Scot de Mello, Andr Valle, Alissandra Evangelista Martins, Antonio Anibal de Souza Teles, Artur Versiani Scott Varella, Carlos Alberto Franco, Cassio Almeida, Catia Cristina de Arajo Quarterolli Bastos, Ftima Luciana Contim Figueiredo, Fernando Tamberlini Alves, Geraldo Oliveira Santos, Guido Alberti Moreira, Jeffrey Hanson Costa, Joo Ismael Damasceno Pinheiro, Jorge Leonardo Lima Barboza, Jorge de Rezende, Luiz Eduardo Va-rella, Marcelo Amorim Bastos, Marcelo Poton, Mrcio Bartolomeu Azevedo da Costa, Raimundo Jos Macrio Costa, Regis da Rocha Motta, Samuel Martins de Souza, Srgio Ellery Giro Barroso, Sonia Baptista da Cunha, Viviane Soares Rodrigues Silva, Telma S. Par.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 11

    maior desa o que as empresas enfrentam hoje o de manter uma carteira de clientes lucrativos. No se trata mais de orga-nizar a produo, reduzir custos e atender bem condies

    necessrias mas no su cientes para vencer no mercado global e altamente competitivo.

    preciso, mediante o conhecimento adquirido sobre seus clien-tes, ser capaz de interpretar seus objetivos, expectativas e desejos. Isto conseguido pela minerao de dados (data mining), ou ainda pela minerao de dados centrada no cliente (customer centric data mining), que uma coleo de tcnicas e mtodos facilitadora da aquisio e reteno da parte do mercado que cabe a uma empresa (market share). As metas de bom atendimento e reduo de custos tambm valem para as organizaes no lucrativas, governamentais ou no.

    Para atingir estes objetivos no bastam as ferramentas genricas de CRM (Client Relationship Management), ERP (Enterprise Resour-ces Planning) ou BI (Business Intelligence) mas tambm capacidade analtica para identi cao de padres e predio a partir dos dados estratgicos de uma organizao. Analistas de minerao de dados desenvolvem dois tipos de modelos: preditivos e descritivos.

    A minerao de dados prov um mtodo automtico para des-cobrir padres em dados, sem a tendenciosidade e a limitao de uma anlise baseada meramente na intuio humana. Presidentes de grandes corporaes como IBM, Microsoft e Harley-Davidson no foram capazes de prever que o mercado ia preferir PCs, Internet e motos populares. Alm disso massas de dados so demasiadamente grandes e intrincadas para tratamento manual.

    Introduo

    O

    PERTENCE A NOME DO CLIENTE

  • 12 Introduo

    Em particular, o comrcio eletrnico vem pressionando drasti-camente as empresas para utilizao de formas mais elaboradas de obteno de conhecimento sobre seus clientes. A grande diferena entre as empresas reais e as empresas na Internet, supondo-se que o bsico seja atingido, o relacionamento. O negcio que conhece seus clientes vai servi-los ainda melhor. Igualmente no setor pblico a introduo do e-governo visa potencializar o acesso da populao s diversas instncias governamentais, aumentando a presso sobre o funcionamento da burocracia estatal.

    A minerao de dados centrada no cliente prov o conhecimento das caractersticas e do comportamento dos clientes. Esta compre-enso a base para qualquer prospeco realstica. Reter clientes custa menos que adquirir novos e a expanso do comrcio eletrnico tornou fcil a mudana de fornecedor. Muitas relaes comerciais no passaro de uma simples transao, por este motivo o melhor gasto com marketing aquele que mantm os clientes que voc j tem. Obviamente no se deve esquecer da e cincia operacional, que a chave para manter os custos sob controle.

    Hoje em dia a projeo de negcios fundamental, por exemplo, a estimativa do ciclo de vida de um cliente de alto retorno para a empresa. Este tipo de reviso vai muito alm do planejamento e do desenvolvimento de modelos de uxo de caixa. Compreende projees mercadolgicas enraizadas no histrico real de negcios. Pode respon-der perguntas tais como Quanto faturamento pode-se esperar de cada cliente nos prximos 12 meses? Sem dvida nenhu ma, uma pergunta bsica para o planejamento da empresa durante um ano.

    Tambm no caso de servios pblicos ou de interesse social a identi cao de fraudes, o diagnstico precoce de doenas ou de suscetibilidade a acidentes de trabalho, entre outros problemas, so de fundamental importncia para garantir o bem-estar da populao e a economia de recursos pblicos.

    A minerao de dados compreende um conjunto de tcnicas para descrio e predio a partir de grandes massas de dados. Por este motivo ela est geralmente associada a bancos de dados especiais denominados data wharehouse. Estes bancos de dados viabilizam a integrao rpida de dados oriundos de diferentes fontes.

    Neste trabalho apresentaremos a metodologia bsica do proces-so de minerao de dados, as grandes categorias de problemas,

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 13

    as ferramentas matemticas mais usuais, os estudos de casos e as concluses.

    Empresas

    Pedidos

    Fornecedores

    ProdutosDivulgao

    Centro de DistribuioProdutosConsumidores

    Finais

    SiteB2C

    SiteB2B

    Figura 1.1. Tipos de Negcios Eletrnicos.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 15

    minerao de dados est inserida em um processo maior de-nominado descoberta de conhecimento em banco de dados, Knowledge Discovery in Database (KDD). Rigorosamente o DM

    se restringe obteno de modelos, cando as etapas anteriores e o prprio DM como instncias do KDD.

    Esquema para gerao de conhecimento em bancos de dados KDD

    Dados Dados-alvoDados

    Pr-processadosDados

    TransformadososClasses

    Previso (DM) Conhecimento

    No promissor e caro mercado de sistemas para minerao de dados dois produtos se destacam: Clementine-SPSS e SAS-Enter-prise Miner. O primeiro usa a metodologia CRISP-DM acrnimo para Cross Industry Standard Process for Data Mining e o segundo a metodologia SEMMA acrnimo para Sample, Explore, Modify, Model, Assess. As diferenas entre eles e outros sistemas no so de essncia, mas de apresentao e implementao. Estes sistemas basicamente passam pelas mesmas etapas: coleta de dados, depurao e anlise, resultando em um modelo descritivo, e, caso se deseje, os resulta-dos sero utilizados na construo de um modelo preditivo.

    Procurando estabelecer uma seqncia genrica de etapas para um projeto de Minerao de Dados teramos:

    a) De nio do problema

    Figura 2.1. KDD.

    KDD e Minerao de Dados

    A

    PERTENCE A NOME DO CLIENTE

  • 16 KDD e Minerao de Dados

    b) Aquisio e Avaliao dos dados

    c) Extrao de caractersticas e realce

    d) Plano de prototipagem, Prototipagem e Desenvolvimento do Modelo

    e) Avaliao do modelo

    f) Implementao

    g) Avaliao do retorno do investimento (ps-projeto)

    Descrevemos a seguir cada uma destas etapas:

    DEFINIO DO PROBLEMA A resposta a uma pergunta mal formulada ca comprometida des-de o incio do processo. Um dos maiores desa os dos analistas de sistemas descobrir o que o usurio realmente quer. Alm disto o ambiente em grandes corporaes envolve o relacionamento com diferentes comunidades dentro da mesma empresa. Por detrs do usurio nal, h que se considerar o ambiente de software e har-dware da empresa.

    Destacamos ento as seguintes tarefas:

    Entrevistar o usurio nal

    Entrevistar o responsvel pela manuteno dos dados

    Compilar documentao

    Selecionar mdia e meios de armazenamento

    Identi car ferramentas

    AQUISIO E AVALIAO DOS DADOS Partimos do princpio de que os dados so a fonte predominante para obteno de informao, portanto esta etapa assim como a anterior constituem os pilares do processo de Minerao de Dados. As tarefas a serem cumpridas nesta etapa seriam as seguintes:

    Adquirir dados

    Formatar dados

    Criar ambiente e ferramentas

    Validar aquisio e formatao

    Criar amostras (aleatrias) de trabalho

    Particionar os dados (anlise, calibrao, validao e teste oculto)

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 17

    EXTRAO DE CARACTERSTICAS E REALCE Nesta etapa preciso identi car quais atributos contribuem para a resoluo do problema em tela. Atributos que no se alteram, em nada contribuem para a anlise. Da mesma forma atributos forte-mente dependentes podem ser reduzidos, a meta desta etapa :

    Produzir um conjunto de dados (data set) representativo, repro-duzvel e con vel

    PLANO DE PROTOTIPAGEM, PROTOTIPAGEM E DESENVOLVIMENTO DO MODELO Desenvolver hipteses e plano de testes

    Prototipagem

    Desenvolver modelos descritivos e/ou preditivos

    AVALIAO DO MODELO Avaliar os resultados do prottipo

    IMPLEMENTAO Entregar o produto nal

    AVALIAO DO RETORNO DO INVESTIMENTO (PS-PROJETO)Esta fase deve ser conduzida pela gerncia da empresa para avaliar se as mudanas conseqentes ao projeto representaram efetivamente um ganho material.

    Exemplo das sete etapas em uma aplicao destinada a uma campanha de vendas de CDBs de um Banco que tem 1.400.000 clien tes pessoas fsicas:

    1. Problema: identi car clientes que se interessariam em comprar CDBs.

    2. Dados: amostra de 150 mil clientes dos quais se mediram os seguintes atributos: idade, renda, variveis demogr cas, lu-cratividade, nvel do depsito, freqncia de investimentos, ocasio das aplicaes entre outras.

    3. Extrao de caractersticas: considerar apenas os atributos rela-cionados recncia (tempo decorrido desde a ltima aquisio), freqncia e fator monetrio.

    PERTENCE A NOME DO CLIENTE

  • 18 KDD e Minerao de Dados

    4. Modelo: rvore de classi cao

    5. Avaliao: a rvore explicou 80% do comportamento dos clien-tes

    6. Implementao: baseado na rvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicao em CDBs

    7. Retorno do Investimento: gastou-se 30% a menos em divulgao porque ao contrrio de outras promoes o contato s foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoes anteriores.

    No prximo captulo trataremos da aquisio, manuteno e atua lizao de dados em um projeto de minerao de dados.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 19

    destacamos anteriormente o papel conceitual dos dados no processo de Data mining a fonte de informao. Apresenta-mos a seguir cinco caractersticas que devem ser obedecidas na

    captao e manuteno dos dados:

    Acurcia sem erros de medio ou digitao

    Consistncia fazem sentido

    Completude sem campos faltantes

    Relevncia concernentes ao problema

    No redundncia no duplicao da mesma informao

    Filoso camente trs princpios devem ser levados em conta:

    A qualidade dos dados crtica e de muito mais importncia do que a quantidade

    A informao est nos dados

    O trabalho deve ser desenvolvido nos dados

    Em geral os Sistemas de Minerao de Dados trabalham acopla-dos a um sistema de banco de dados. Obviamente bancos de dados e sistemas para gerao de relatrios existem desde a dcada de 1970, mas desde ento houve uma evoluo impressionante destes sistemas em face da expanso dos negcios e da formao de gran-des corporaes multinacionais. Consolidou-se ento o conceito de Business Intelligence (BI) um conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas basea dos nos mesmos, apia a tomada de decises em negcios. Para isto ser possvel necessrio adquirir os dados, por exemplo, por meio de um sistema de processamento on-line de transaes (OLTP), armazen-los em um sistema de banco de dados, como um Data

    Bancos de Dados para Minerao de Dados Data warehouse, Data mart e Data webhouse

    J

    PERTENCE A NOME DO CLIENTE

  • 20 Bancos de Dados para Minerao de Dados

    warehouse do qual se pode gerar ainda um subconjunto espec co de dados, Data mart e, nalmente, processar estes dados com uma ferramenta de anlise que pode ser: uma ferramenta de processa-mento analtico on-line (OLAP); um sistema de informaes para executivos (EIS); um sistema de apoio a deciso (DSS); ou ainda um sistema de descoberta e previso (Data mining).

    OLTP

    DATA WAREHOUSE

    EIS/DSS

    OLAP

    DATA MINING

    Figura 3.1. Sistemas para Business Intelligence.

    A tabela a seguir ilustra as diferentes ferramentas de Business Intelligence (BI).

    Os sistemas de anlise no concorrem entre si, apenas respon-atnemarrefedopiT acisbotseuQ atsopseradolpmexE

    gniniMataD ?etnasseretnieuqO ?recetnocaedopeuqOosiverpsetneilcedsopiT

    sadneved

    PALO euecetnocaeuqO ?uqrop

    siasnemsadneV susrevedsoerpedsanadum

    seroditepmoc

    SSD/SIE osicerpueeuqO ?arogarebas sasrevidseatoC

    soirtaleResasiuqseP ?uecetnocaeuqO smomitlodsadneV

    dem a perguntas em nveis diferentes. Sendo o Data mining o de maior alcance estratgico dentre eles.

    A viabilizao destes sistemas de anlise s possvel graas ao Data warehouse, o trao distintivo deste sistema de banco de dados em relao aos sistemas anteriores que ele no relacional, mas multidimensional. Alm disto tem a habilidade para extrair, tratar e agregar dados de mltiplos sistemas operacionais em Data marts ou em Data warehouses separados. Em sua concepo mais avanada o Data warehouse implementado na World Wide Web (WWW), dando origem ao Data webhouse. O Data webhouse armazena e publica

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 21

    dados de seqncia de cliques e outros dados comportamentais da Web que guiam uma compreenso do comportamento do cliente, diferencia-se, portanto, da ferramenta OLAP que registra a transao efetuada mas no os movimentos preliminares a esta transao.

    A implementao da estrutura multidimensional representada na gura 3.2 possvel graas ao conceito de n-D cubide. Neste caso o 0-D cubide d o total de carros, 15 no caso. Os 1-D cubides so modelo e cor. No caso do 1-D cubide cor, tem-se: 1 Azul, 6 verme-lhos, 5 Brancos e 3 Amarelos. Para o 1-D cubide Modelo, tem-se: 11 utilitrios, 4 sedans. Finalmente o 2-D cubide corresponde descrio da tabela de contingncia: 0 utilitrios azuis, 6 utilitrios vermelhos, 5 utilitrios brancos, e assim por diante.

    A ferramenta OLAP permite realizar diversas operaes sobre a estrutura multidimensional, a saber: drill-up agrega dados em uma dimenso subindo na hierarquia, por exemplo, rua>cidade> estado>pas; drill-down a operao oposta; slice xa o valor de uma dimenso e recupera os valores das demais dimenses; dice xa o valor de duas ou mais dimenses e recupera os valores das demais; pivot intercambia dimenses, permitindo diferentes vi-sualies dos dados.

    No livro de Han J. e Kamber M. citado na bibliogra a o leitor poder saber mais sobre Data warehouse e sua ligao com Data mining.

    A principal questo do processo de minerao de dados pode ser colocada da seguinte forma: onde est a informao que os dados contm e como ela pode ser localizada? Isto ser visto nos prximos captulos.

    PERTENCE A NOME DO CLIENTE

  • otcepsA PTLO PALO

    acitsretcaraC lanoicarepO lanoicamrofnI

    oatneirO oasnarT esilnA

    oirusU etnereG otnemicehnocedatsilanA

    onuF onaiditoC ozarpognoL

    opecnoC oacilpaodatneirO otnussAodatneirO

    sodaD setnerroC socirtsiH

    oaziramuS odahlatedetnematlA odadilosnoC

    atsivedotnoP lanoicaleR lanoisnemiditluM

    ohlabartededadinU selpmisseasnarT saxelpmocsatlusnoC

    ossecA atircse/arutieL arutieL

    ocoF sodadedadartnE oamrofniedadaS

    oarepO hsah/oaxednI acsuB

    sortsigeredoremN sanezeD sehliM

    soirusuedoremN serahliM sanetneC

    ohnamaT bG1abM001 bTabG001

    edadirorirP atlA edadilibinopsid/ecnamrofreparapaimonotua,edadilibixelfatlA

    lanaifoirausu

    acirtM oasnartropohnepmeseD opmet,atlusnocropohnepmeseD atsopsered

    Modelo Cor VendasUtilitrio Vermelha 6Utilitrio Branca 5Sedan Amarelo 3Sedan Azul 1

    Cor

    Modelo

    Azul Vermelha Branca Amarelo

    Utilitrio 0 6 5 0Sedan 1 0 0 3

    RELACIONAL

    MULTIDIMENSIONAL

    3/11

    Figura 3.2. Banco Relacional versus Multidimensional.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 23

    PROBLEMAO termo KDD Knowledge Discovery in Databases foi criado em 1995 para designar o conjunto de processos, tcnicas e abordagens que propiciam o contexto no qual a minerao de dados ter lugar. Em suma a aplicao do mtodo cient co moderno aos problemas do mundo dos negcios.

    preciso, portanto, estar consciente de que o processo de desco-berta no se faz provando uma hiptese mas, colhendo evidncias e explicaes sobre ela podendo eventualmente levar construo de um modelo. Os resultados ganharo evidncia medida que os fatos assim o con rmarem. Alm disto esta evidncia e con rmao re etem um paradigma. Quando h mudana de paradigma, tudo deve mudar hipteses, evidncias e modelos.

    Portanto, quando usarmos as tcnicas de minerao de dados para analisar problemas do mundo dos negcios, preciso estar atento mudana de paradigma que est ocorrendo. No velho para-digma, um negcio estava organizado em reas funcionais marke-ting, nanas, engenharia e um comando voltado para produo. Este paradigma est mudando para algo centrado no cliente em torno de quem se estabelece uma rede de processos controlveis retroativamente. Os modelos de minerao de dados devem re etir este novo paradigma sob pena de nada acrescentarem.

    A primeira onda desta mudana de paradigma foi baseada no conceito de lealdade/assiduidade medidas pela mtrica RFM (re-cncia tempo transcorrido desde a ltima compra; freqncia e valor monetrio), um exemplo o programa de milhagem presente em muitas companhias areas.

    A Construo de Modelos no Processo KDD/DM

    PERTENCE A NOME DO CLIENTE

  • 24 A Construo de Modelos no Processo KDD/DM

    A segunda onda se baseou na otimizao do valor do cliente, buscando a oferta de produtos e servios em nichos de nidos por segmentos de clientes.

    A terceira onda vai muito alm busca a customizao em massa, processo radical no qual o consumidor pode alterar estru-turalmente o produto/servio de acordo com o seu pedido. o caso da Toyota no Japo, Domino nos EUA, entre outras.

    As empresas de marketing a partir da dcada de 1950 passaram a trabalhar com o sistema de metas, isto , de nem-se metas de vendas, de market-share etc...

    Exemplos de Metas

    Atrair novos clientes

    Tornar novos clientes rentveis

    Evitar clientes de risco

    Entender as caractersticas dos clientes

    Tornar rentveis os atuais clientes

    Reter clientes rentveis

    Recuperar clientes

    Melhorar a satisfao dos clientes

    Aumentar vendas

    Reduzir despesas

    A partir das metas desenvolve-se uma seqncia de passos que levem consecuo das mesmas. Este processo leva construo de um modelo o qual pode ser preditivo ou descritivo. Um modelo preditivo calcula algum valor que representa um nvel de atividade futura, um modelo descritivo descobre regras que so usadas para agrupar itens em categorias. Dentre algumas aplicaes dos modelos preditivos temos: os modelos de resposta, risco, cross-sell, up-sell, concorrncia, valor presente lquido e ciclo de vida. J em relao aos modelos descritivos as aplicaes mais comuns so: anlise de per l de cliente e cesta de compras. No livro de R. Swift sobre CRM (Customer Relationship Management) listado na bibliogra a, o leitor poder apreender mais sobre as novas tendncias do marketing.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 25

    Modelos e suas nalidades

    Anlise de Per l: contm estatsticas sobre os clientes relativas a atributos demogr cos (idade mdia, proporo de gnero, proporo de casados, proporo de solteiros, tempo mdio de residncia etc.). A anlise de per l mais efetiva quando aplicada a segmentos.

    Segmentao: segmenta os clientes segundo um conjunto de critrios, por exemplo, lucratividade e potencial.

    Resposta: procura determinar dentre os clientes quem reagir a uma oferta de produto ou servio.

    Risco: prediz a probabilidade de que um tomador de crdito no honre sua dvida.

    Ativao: prediz se um cliente inicial ir efetivamente se tornar cliente.

    Cross-sell: prediz a probabilidade ou valor de um cliente comprar outro produto ou servio na empresa.

    Up-sell: prediz a probabilidade ou valor de um cliente aumentar suas compras do mesmo produto ou servio na empresa.

    Attrition: prediz a reduo do consumo ou uso de um servio ou produto.

    Valor lquido presente de um produto (Net present value): prediz a lucratividade de um produto por um perodo predeterminado de tempo.

    Valor lquido presente de um cliente (Lifetime value): prediz a lucratividade de um cliente por um perodo predeterminado de tempo.

    O problema ou meta vai determinar qual ou quais modelos po-dem ser teis. O livro de O. P. Rud, citado na bibliogra a dedicado aplicao de Minerao de Dados ao setor de negcios.

    Trataremos a partir de agora das questes metodolgicas obten-o e tratamento dos dados; escolha da metodologia mais adequada para processar o modelo, validao e implementao.

    Como exerccio formule um problema em sua organizao que possa ser tratado via minerao de dados. Lembre-se, o servio ou produto disponibilizado personalizado. Ou seja voc sabe quem

    PERTENCE A NOME DO CLIENTE

  • 26 A Construo de Modelos no Processo KDD/DM

    o cliente ou usurio. No precisa se limitar a negcios lucrativos, por exemplo, em uma indstria a partir de dados de acidentes construir um modelo preditivo a partir do qual se possa avaliar a propenso de um funcionrio se acidentar.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 27

    PROBLEMA > DEFINIO DA POPULAODo ponto de vista de contedo, os dados podem ser classi cados em trs categorias: demogr cos, comportamentais e psicolgicos (valores). Por exemplo: um cliente masculino de 45 anos, vivo, compra em mdia R$ 200,00 a cada ida semanal ao supermercado e se declara contra a cobrana do estacionamento.

    Tipos de Dados

    DEMOGRFICO COMPORTAMENTAL PSICOLGICO Homem, 45 anos, Compras semanais Contra cobrana vivo. de em mdia R$ 200,00 estacionamento

    Existem diversas fontes de dados que podem ser aproveitadas em um projeto de DM: banco de dados de clientes (idcliente, iddomicilio, numconta, nome, endereo, telefone, daddemgrf etc...); banco de dados de transaes (idcliente, numconta, valor, data etc...); banco de dados de campanhas (idcliente, idprospect); banco de dados de pesquisas. A aquisio, manuteno e acesso se faz pelos sistemas apresentados no captulo Bancos de Dados para Minerao de Dados.

    Dependendo da nalidade da modelagem o conjunto de dados a ser utilizado deve mudar. Podemos destacar trs nalidades mais comuns: dados para prospeco, avaliao de risco e metas junto a clientes. Por meio do sistema de banco de dados constri-se o Data mart apropriado para a modelagem requerida. Assim em uma mode-lagem para metas junto a clientes, os banco de dados de transaes e cadastros sero utilizados enquanto que em uma modelagem para avaliao de captao de novos clientes, o banco de dados de

    Tratamento de Dados para DM

    PERTENCE A NOME DO CLIENTE

  • 28 Tratamento de Dados para DM

    campanhas j seria mais indicado. Por exemplo em um trabalho en-comendado pela Associao Brasileira de Imprensa (ABI) para traar o per l do jornalista carioca, preferimos conduzir uma pesquisa ao invs de usar o banco de dados dos associados da entidade.

    PROBLEMA > POPULAO > AMOSTRAGEM De uma maneira geral o nmero de registros em um banco de dados muito grande, sendo desnecessrio utiliz-lo totalmente para o ajuste de um modelo. Deve-se ento construir uma amostra, uti-lizando-se para isto de tcnicas espec cas de amostragem. Duas perguntas bsicas surgem: qual o tamanho da amostra e como sele-cion-la. O tamanho da amostra depende de muitas consideraes nalidade do modelo, nmero de parmetros e poder preditivo esperado. No caso de estimao de propores temos os seguintes valores:

    artsomaadohnamaT 001 002 004 057 0001 0051 0003 0005

    orreedmegraM( )%99=* 9,21 1,9 5,6 7,4 1,4 3,3 4,2 8,1

    orreedmegraM( )%59=* 8,9 9,6 9,4 6,3 1,3 5,2 8,1 4,1

    orreedmegraM( )%09=* 2,8 8,5 1,4 0,3 6,2 1,2 5,1 2,1

    * Nvel de con ana.

    A outra questo como escolher os elementos da amostra. H cin-co tipos bsicos de amostragem: aleatria simples, aleatria estrati -cada, sistemtica, por mltiplos estgios e por cotas. Se a populao a ser considerada homognea a amostragem aleatria simples a mais adequada. Entretanto se esta populao for estrati cada ou segmentada, ento podem ser utilizadas as opes aleatria estra-ti cada, cotas ou conglomerados. No livro de A. C. Almeida, sobre pesquisas eleitorais e de opinio, que consta na bibliogra a o leitor poder aprofundar os conhecimentos sobre o tema.

    Tipos de Amostragem

    Aleatria simples a selecionada por sorteio, de tal forma que cada unidade da populao tenha igual chance de ser sorteada.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 29

    Aleatria estrati cada a selecionada por sorteio em subcon-juntos ou estratos da populao.

    Sistemtica variante da aleatria simples, embaralham-se os elementos da populao e passa-se a selecion-los a cada n/N elementos, onde n: tamanho da populao e N: tamanho da amostra.

    Mltiplos estgios a populao representada por estratos hierarquizados do mais amplo para o mais espec co: municpio, distrito, bairro, quarteiro, domiclio, data de nascimento.

    Cotas a populao dividida em subgrupos e a seleo feita arbitrariamente dentro de cada subgrupo e tantas vezes segundo sua proporo na populao.

    Exemplo de um plano de amostragem

    O objetivo gerar uma amostra para traar o per l do jornalista carioca, de nimos o tamanho da amostra em 400 e optamos pela amostragem em cotas, os nmeros dentro das clulas representam a quantidade de entrevistados(das) em cada grupo. O levantamento foi feito em 1996. Os valores em cada clula indicam o nmero de pessoas a entrevistar.

    Jornal

    TV

    Rdio

    aserpmEairogetaC obolG BJ aiD

    odlanroJoicrmoC

    anubirTasnerpmI ovoPO

    mevoJ 61 9 7 4 4 3

    roinS 21 7 5 2 2 2

    aserpmEairogetaC obolG EVT etehcnaM TBS setnariednaB TNC

    mevoJ 91 8 8 2 2 2

    roinS 41 5 5 1 1 1

    aserpmEairogetaC obolG BJ ipuT aiD lanoicaN setnariednaB lardetaC aciremasnarT

    mevoJ 31 2 1 1 1 1 1 1

    roineS 5 1 1 1 1 1 1 1

    PERTENCE A NOME DO CLIENTE

  • 30 Tratamento de Dados para DM

    aserpmE ssorCnedloG llehS zurCazuoS aloC-acoC ispeP limA

    4 4 4 4 4 4

    aserpmE najriF/INC JR.moC.ssA .moC.caN.fnoC GESANEF

    8 2 2 2

    edaditnE.dniS

    soircnaB.dniS

    .tinabrU.dniS

    sorielortePJREMERC

    .dniS.sseforP

    .dniS.lateM

    4 4 4 2 2 2

    aserpmE elaV INC CNC

    4 4 4

    aserpmEairogetaC

    hcolB lirbA

    mevoJ 41 01

    roineS 6 4

    aserpmE IBA hcolB lirbA 1omontuA 2omontuA

    5 5 5 1 1

    aserpmE gnippilCoediV miromAamiL illecnoraB I II III VI

    2 2 2 2 2 2 2

    Assessoria Imprensa Pblica

    Assessoria Imprensa Privado

    Entidades Patronais

    Sindicatos Trabalhadores

    Publicaes Dirigidas

    Revista

    Freelancer

    Empresas Comunicao

    aserpmE sarborteP UTBC .ceS .cinuM.ceS.datsE

    .ssA.lsigeL acnI jreleT letarbmE BRI

    4 4 01 01 01 2 2 2 2

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 31

    Professores

    PROBLEMA > POPULAO > AMOSTRA > TRIAGEM DOS DADOSUma vez selecionada a amostra h trs tarefas a realizar: tratar erros, valores aberrantes (outliers) e valores faltantes (missing values). Antes porm vamos relembrar a classi cao tpica para dados em dados qualitativos e quantitativos. Os dados qualitativos so expres-sos em categorias e basicamente so utilizados em segmentao e classi cao. J os dados quantitativos so expressos numericamen-te e se apresentam em quatro escalas diferentes: nominal, ordinal, intervalar e contnua.

    Para um dado qualitativo mais fcil detectar um erro ou um outlier, basta veri car se os valores encontrados na amostra corres-pondem aos valores possveis. Caso isto no ocorra para algum elemento pode-se descart-lo ou alternativamente substitu-lo pela moda. No caso de dados quantitativos expressos em escalas nominais ou ordinais pode-se aplicar o mesmo procedimento. J para dados intervalares ou contnuos a gerao de gr cos tais como histograma e box-plot podem ajudar a identi car estes casos. Para outliers existem muitos critrios que podem ser utilizados, por exem-plo, valores fora das regies uma vez e meia o intervalo interquartil, acima e abaixo do terceiro e primeiro quartis respectivamente:

    Critrio simples para identi cao de outliers

    A identi cao de outliers importante, porm mais importante ainda o que vai-se fazer aps encontr-los. A presena de outliers pode prejudicar o desempenho de muitos mtodos na etapa de

    edadisrevinU JRFU AHCAF JREU EDADIC OICTSEAMAGOHLIF

    AGIEVADIEMLA

    CUP

    5 4 5 2 2 2 2 2

    * * * *

    1,5L 1,5LX X X25% 50% 75%

    L

    Figura 5.1. Outliers.

    PERTENCE A NOME DO CLIENTE

  • 32 Tratamento de Dados para DM

    modelagem. Entretanto, eles podem estar fornecendo uma infor-mao preciosa. Em muitos problemas de DM a meta encontrar a exceo e no a regra, por exemplo, em deteco de fraude. O monitoramento de contas em uma operadora de carto de crdito deve incluir testes que detectem desvios signi cativos do padro usual de gastos de um cliente.

    Para dados quantitativos tambm pode-se substituir dados errados ou aberrantes, neste caso pela mdia ou pela mediana. H procedimentos mais so sticados: mdia local da classe ou por regresso baseada nas demais variveis.

    Exemplo de substituio de outliers

    )ms(adneR 5 5,4 6 8,4 1,5 8 9 01 11

    )$R(sarpmoC 021 001 002 0001 051 003 014 305 082

    Caso no hajam dvidas sobre o carter excepcional ou errtico do valor 1.000, ele poderia ser substitudo pela mdia local dos pares prximos: (120 + 100 + 150 + 200)/4 = 142,5

    PROBLEMA > POPULAO > AMOSTRA > TRIAGEM > TRANSFORMAO DOS DADOSO nmero de variveis presentes no dataset pode ser muito gran-de, alm disto as variveis podem estar expressas de forma pouco conveniente. As seguintes tcnicas podem ser teis e se incluem na etapa de realce e extrao de caractersticas do projeto de minerao de dados.

    Transformaes e suas aplicaes

    Sumarizao reduzir o nmero de valores mediante de alguma agregao, por exemplo, substituir dados dirios por mdias semanais.

    Razes gerar uma nova varivel a partir da razo de duas outras.

    Codi cao transformar dados qualitativos em quantitativos. Por exemplo datas no formato dd.mm.aa inviabilizam operaes matemticas, estabelece-se, portanto, uma data de referncia a partir do qual os dias so contados.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 33

    Codi cao simblica transformar dados quantitativos em qua-litativos, no deixa de ser uma forma de sumarizao. Intervalos de variao passam a ser associados a uma categoria.

    Reduo de variveis eliminar variveis redundantes ou com pouco poder preditivo.

    Parametrizao transformar uma varivel em outra cujo dom-nio de variao seja mais adequado. Por exemplo, a padroniza-o.

    Transformaes matemticas calcular uma funo da varivel obtendo-se uma nova varivel com propriedades mais conve-nientes, por exemplo, simetrizao por meio da transformao logartimica.

    Reduo de variveis

    Reduo de variveis ou reduo de dimensionalidade tem como objetivo eliminar atributos irrelevantes ou pouco relevantes tendo em vista o problema selecionado. Por exemplo, para um modelo preditivo da preferncia por um tipo de revista a cor dos olhos ou altura no signi cativo. Ou, em outras palavras, se uma varivel preditiva e a varivel resposta forem independentes, no h motivo para inclu-la no modelo. Uma maneira de se avaliar esta indepen-dncia mediante a estatstica qui-quadrada que para variveis independentes forneceria valores pequenos com alta chance de

    .raV I II III VI V IV IIV IIIV XI X

    2 83,74 72,3 79,1 90,0 33,02 30,0 37,36 33,02 94,461 64,64

    >P 1000, 70, 61, 77, 1000, 68, 1000, 1000, 1000, 1000,

    ocorrer (variveis IV e VI na tabela).As variveis IV e VI tm baixo poder preditivo e podem ser elimi-

    nadas porque a diferena entre as freqncias observadas (relativas a estas variveis) e esperadas baixa com probabilidade alta. Em termos simples, a estatstica qui-quadrada mede a diferena entre o valor esperado e o observado:

    22 ( )esperado observado

    esperado =

    (5.1)

    PERTENCE A NOME DO CLIENTE

  • 34 Tratamento de Dados para DM

    Usualmente os pacotes computacionais que calculam a regresso logstica apresentam os valores da estatstica qui-quadrada para cada varivel, podendo-se assim em um modelo preliminar que inclua todas as variveis ter uma indicao das variveis descar tveis.

    Transformao de variveis

    Considere os dados referentes a teores diversos tomados em uma regio determinada.

    Para cada varivel as transformaes propostas so:

    Para estas novas variveis as estatsticas se tornam:

    xraV gMaC S aN K P lA

    5,1 6,1 90,0 12 2,6411 5,1

    S 0,1 1,1 70,0 6,22 3,5103 8,1

    VC 76,0 96,0 87,0 80,1 100,0 2,1

    X %05 2,1 4,1 60,0 7,11 0,602 9,0

    ruC 4,4 3,4 9,5 9,9 5,91 0,01

    ssA 3,1 2,1 6,1 5,2 0,4 5,2

    sieviraV seamrofsnarT leviravoN

    gMaC gMacR

    S SgoL SL

    aN )320,0+aN(goL anL

    K KgoL KL

    P PgoL PL

    lA lAgoL laL

    CaMg

    Neste caso o objetivo era o de aproximar a curtose (coe ciente

    raV gMaCR SL aNL KL PL lAL

    30,1- 1,0 23,2- 61,1 85,2 40,0-

    S 44,0 43,0 15,0 73,0 6,0 34,0

    VC 34,0 4,3 22,0 23,0 32,0 11

    X %05 19,0- 51,0 94,2- 70,1 13,2 40,0-

    ruC 3 43,2 34,2 97,2 23,4 17,2

    ssA 32,1- 42,0- 36,0 44,0 70,1 62,0

    x

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 35

    de achatamento) e a assimetria dos padres normais, respectiva-mente 3 e 0.

    Em vrios estudos de caso apresentados no Anexo IV so deta-lhados planos de amostragem e de tratamento de dados. Veremos nos captulos sobre Plano de Prototipagem e Validao do Modelo a importncia do uso da amostragem em um projeto de Minerao de Dados. Finalmente preciso chamar a ateno para o fato de que na imensa maioria dos casos, os dados em DM so dados observa-dos, para os quais no foi delineado nenhum experimento prvio, como usualmente se faz em Planejamento de Experimentos. Assim, o escopo dos resultados observados raramente pode ser universali-zado, devendo car restrito ao ambiente em estudo.

    Como continuao do exerccio proposto ao nal do captulo A Construo de Modelos no Processo KDD/DM especi que:

    a) repositrio de dados que ir ser utilizado

    b) variveis (atributos) que sero lidos (todas)

    c) esquema de particionamento

    d) critrios para deteco de erros

    e) critrios para tratamento de outliers

    Estabelea agora procedimentos para transformao de variveis que se faam necessrias para extrao de caractersticas e realce.

    Preveja tambm procedimentos para reduo de variveis.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 37

    PROBLEMA > ... > TRANSFORMAO > SELEO DO MTODOA primeira questo a considerar na seleo de um mtodo se o problema original um problema que necessita de um modelo de descrio ou de predio. Podemos tambm nos referir aos mode-los descritivos como modelos de classi cao no supervisionada, enquanto os modelos de classi cao supervisionada sero identi- cados como modelos de predio com argumento categrico. Os demais modelos de predio tm seus argumentos contnuos.

    A formulao do modelo (especi cao), seu ajuste (estimao) jun-tamente com a validao (a ser vista mais adiante) constituem as fases mais crticas do projeto, sendo includas na etapa de proto tipagem.

    Embora seja relativamente fcil determinar a qual classe de mo-delos o problema em tela pertence, no se pode dizer que fcil selecionar o modelo e muito menos ajustar seus parmetros. No h o modelo timo necessariamente, nem muito menos os nveis timos para seus parmetros. Deve-se admitir a possibilidade da incerteza do modelo e fazer dedues com base em vrias alternati-vas plausveis, ou escolhendo um procedimento que no force uma forma particular de modelo sobre os dados. A questo da validao do modelo ser tratada mais adiante.

    Mtodos para modelos de predio com variveis de entrada e sada contnuas

    Toda a famlia de mtodos de regresso pode ser til para estes mo-delos: regresso linear, no-linear, univariada e multivariada.

    Mtodos para modelos de predio com variveis de entradas contnuas, inteiras ou categricas e sada categrica

    Mtodos para Modelagem

    PERTENCE A NOME DO CLIENTE

  • 38 Mtodos para Modelagem

    Regresso Logstica, rvores de Classi cao, Anlise Discrimi nante, Redes Neurais.

    Mtodos para modelos de classi cao com variveis de entrada contnuas, inteiras ou

    categricas e sada categrica

    Anlise de Cluster, Anlise de Associao, Redes Neurais.

    Descrio dos mtodos e suas propriedades

    Anlise de Regresso Linear o termo regresso foi introduzido por Francis Galton em 1885. Nestes modelos supe-se que a mdia de uma varivel Y dependente de uma ou mais variveis (X

    1, X

    2,

    ...X

    r). A varivel Y chamada de varivel de sada ou dependente e,

    as variveis Xi so chamadas de variveis de entrada, explicativas

    ou ainda de variveis independentes. Esta ltima designao pode induzir confuso pois no necessariamente as variveis X

    i so in-

    dependentes entre si. As equaes bsicas do modelo, aonde letras maisculas denotam as variveis e minsculas valores observados das mesmas, so:

    1 2 0 1 1 2 2( | , ,... ) ...r r rE Y X X X X X X = + + + (6.1)

    E(Y|X) representa o valor mdio ou esperana condicional de Y.

    0 1 1 2 2... r rY X X X = + + + + (6.2)

    representa a varivel erro ou resduo do modelo.Os pressupostos para a seleo deste modelo incluem a lineari-

    dade do fenmeno, homocedasticidade (varincia dos erros cons-tantes), independncia dos erros e normalidade dos erros. As guras a seguir ilustram estes conceitos:

    0

    +

    * * * *

    * * * *Resduos

    Estimativas

    Linearidade, homocedasticidadee independncia

    (a)

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 39

    Estas propriedades s podem ser avaliadas a posteriori, pois os gr cos acima supem que o modelo foi ajustado. O ajuste do modelo corresponde estimao de seus parmetros. Neste ponto oportuno destacar a diferena entre estimao e previso. A deter-minao dos coe cientes beta um problema de estimao. Estes coe cientes no so observveis, portanto a e ccia da estimativa s poder ser avaliada indiretamente, como veremos adiante. Por outro lado, previso corresponde determinao do valor de uma varivel em funo da variao das variveis de controle. No caso

    0

    +

    ** * *

    * * * *

    *

    * * *

    Resduos

    Estimativas

    Linearidade e heterocedasticidade

    (b)

    0

    +

    ** *

    * ** *

    Resduos

    Estimativas

    No linearidade

    (c)

    0

    +

    * * * *** * *

    * * * ** * * *

    * * * *

    Resduos

    Estimativas

    Linearidade e dependncia

    (d)Figura 6.1. Resduos versus estimativas.

    PERTENCE A NOME DO CLIENTE

  • 40 Mtodos para Modelagem

    do modelo de regresso tem-se a previso do valor mdio da vari-vel Y em funo dos valores das demais variveis. Por este motivo os modelos de regresso suavizam suas predies. No caso de pre-viso pode-se observar os resultados reais e comparar com o que foi previsto.

    O ajuste do modelo para uma dada populao feito comumente a partir da minimizao da soma dos quadrados dos erros, embora hajam outros critrios tais como o da mxima verossimilhana ou ainda os mtodos da inferncia bayesiana.

    O critrio de minimizao do erro quadrtico leva determi-nao de estimativas para os coe cientes beta a partir de uma amostra de valores para as variveis Y e X

    i.

    A intensidade da associao analisada com base nas estatsticas seguintes:

    SQTOTAL: variao total = 2( )iy y (6.3)

    SQREG: variao da regresso = 2( )iy y (6.4)

    SQRES: variao dos erros = 2( )i iy y (6.5)

    onde:

    ::

    TOTAL REG RES

    iesima estimativa

    media dasobservaoesda varivel independente

    SQ =SQ +SQ

    iyy

    Em minerao de dados o interesse maior na previso do que na explicao do papel dos coeficientes. bvio que para se fazer a previso precisa-se estimar os coeficientes, mas no h a necessidade de se aprofundar a anlise. O objetivo ma-ximizar o poder preditivo das variveis X

    i. A combinao linear

    destas variveis formada para ser o preditor timo da varivel resposta. Por meio de medidas e testes a acurcia do preditor pode ser avaliada. O coefi ciente de determinao R2 o quadrado da correlao entre Y

    2 ReSQ gRSQTot

    =

    (6.6)

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 41

    e a combinao de variveis Xi. Quanto mais perto de 1 melhor

    explicada a variabilidade total. Por exemplo, se R2 = 0,75 ento 75% da variao de Y explicado pelas variveis X

    i. A aceitao ou

    no de um ajuste de regresso pode ser quali cada mediante um teste de hiptese no qual a hiptese nula

    i = 0, i=0,...,n. O teste se

    baseia na estatstica F.

    Re( 1) 1

    ( 1)

    SQ grF SQTotn r

    + =

    + (6.7)O numerador e o denominador de (6.7) representam, respecti-

    vamente as varincias explicada e em relao mdia. Se o valor de F alto, isto signi ca que a composio de variveis X

    i importante

    na explicao dos valores de Y, rejeitando-se a hiptese nula.O valor predito para Y pode ser utilizado para construir um in-

    tervalo de con ana baseado na distribuio t de Student. Suponha que se queira construir um intervalo de con ana ao nvel = 1- , ento o intervalo da forma:

    / 2 1 / 2 [ * , * ]2 2SQTot SQToty t y tn n

    + + (6.8)

    ExemploConsidere uma amostra que contem informaes sobre nmero de cartes de crdito que uma famlia possui, tamanho da famlia e renda familiar.

    )Y(otidrcedsetraC# X(ailmafadohnamaT 1) X(railimafadneR 2)

    4 2 000.41

    6 2 000.61

    6 4 000.41

    7 4 000.71

    8 5 000.81

    7 5 000.12

    8 6 000.71

    01 6 000.52

    PERTENCE A NOME DO CLIENTE

  • 42 Mtodos para Modelagem

    O modelo ajustado : Y = 0,482 + 0,63X1 + 0,216X

    2 +

    O valor do coe ciente de determinao 0,87.

    As tcnicas para a construo de um modelo de regresso linear constituem um captulo a parte dos mtodos estatsticos. O ajuste do modelo no obtido em uma s etapa, mas aps vrios testes com diferentes selees de variveis, que levam em conta testes de hipteses e anlise de varincia, at a aceitao do melhor modelo. Para se aprofundar nestas tcnicas o leitor pode se referir aos livros de Hair, Anderson e Tatham (1998) ou de Malhotra (2001).

    A classe de modelos lineares ou redutveis a modelos lineares muito mais vasta do que a apresentada pela equao bsica de regresso. Muitos autores consideram como lineares todos os mo-delos onde a varivel resposta depende linearmente das variveis preditoras, podendo os coe cientes serem expresses no-lineares. Assim a equao de regresso

    20 1 1lnY X = + + (6.9)

    considerada um modelo de regresso linear. J o modelo:

    20 1 1Y X = + + (6.10)

    tipicamente no-linear. H tambm modelos que podem ser line-arizados e tratados como tal. Apresentamos em seguida a determi-nao dos coe cientes de regresso para um modelo de avaliao de valor de venda de terrenos.

    Exemplo A varivel resposta y representa o valor por metro quadrado. As variveis de entrada so respectivamente:

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 43

    rea (m2)Frente (m)VO (valor bsico para clculo do IPTU)Tipo (aproveitamento do terreno U-unifamiliar, M-multifamiliar, C-comercial)

    A amostra consistiu em 13 terrenos anunciados nas imediaes do imvel a ser avaliado, os valores so os seguintes:VO valor bsico do logradouro para clculo do IPTU em UNIF.TIPO aproveitamento do terreno: U unifamiliar, M multifamiliar, C comercial. Esta varivel foi codi cada numericamente como 1, 2 e 3 respectivamente.VU varivel criada dividindo-se valor por rea, d o valor unitrio (R$/m2).

    Sobre as variveis Tipo e VO foram aplicadas transformaes respectivamente 1/Tipo e Ln(VO).

    O modelo de regresso adotado no-linear porm redutvel a um modelo linear por meio de uma transformao logartimica.

    0 1 2 3 4exp{ * * (1/ ) * ( ) }VU Area Frente Tipo Ln VO = + + + + + (6.11)

    Determinando os coe cientes temos:

    exp{5,25 8,84 04* 2,38 02* 1,93* (1/ ) 0,42* ( ) }VU E Area E Frente Tipo Ln VO = + + +

    O coe ciente de determinao R2 foi igual a 0,96 e a estatstica F igual a 54,29 rejeitando-se a hiptese nula.

    Para um terreno no pertencente amostra com os seguintes atributos:

    PERTENCE A NOME DO CLIENTE

  • 44 Mtodos para Modelagem

    rea = 742,25VO = 133,1608Frente = 17Tipo = 2

    O modelo deu um valor central igual 444,67/m2. O valor total do terreno seria, portanto, da ordem de 330.000,00 em reais ou 183.772,34 dlares naquela ocasio. Posteriormente este terreno foi negociado a 180.000 dlares.

    ANLISE DE REGRESSO NO-LINEAROs modelos no lineares so muito menos utilizados do que os lineares. Dois motivos contribuem para isto:

    a) a soluo no encontrada a partir de uma expresso matemtica explcita mas de um processo iterativo que converge em limite para a soluo;

    b) preciso selecionar o modelo antes da seleo de variveis e difcil justi car esta seleo a no ser em relao a grandes categorias de modelos no-lineares;

    Podemos agrupar estas categorias em:

    (a) modelos sem pontos de mximo ou mnimo mas cncavos ou convexos;

    (b) modelos sigmoidais;

    (c) modelos com mximos e mnimos.

    (a) (b) (c)

    Figura 6.2. Regresso No-linear.

    Para cada grande categoria temos famlias de modelos com um nmero de parmetros que vai de um a cinco, mais do que isto

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 45

    em um problema univariado leva a uma sobreparametrizao. Os modelos no-lineares multivariados so ainda mais difceis de se classi car. A determinao dos coe cientes de regresso podem se basear no critrio de mnimos quadrados (mais usual) ou no critrio de mxima verossimilhana.

    1 2 1 2 0 1( | , ,..., ) ( , ,... ; , ,... )r r rE Y X X X F X X X = (6.12)

    Os mtodos para determinao dos coe cientes geram seqn-cias de valores para os coe cientes, no limite as seqncias tendem a beta.

    ( 1) ( ) ( 1)k k ki i ib b

    + += +

    (6.13)

    ( )lim ki ik b = (6.14)H diferentes mtodos para ajuste no-linear, os mais comuns

    so: mtodo do gradiente, de Gauss-Newton e de Levenberg-Mar-quadt entre outros. Os testes para regresso no-linear so muito mais complexos e esta mais uma razo para que estes modelos sejam menos utilizados.

    ExemploNeste exemplo consideramos um modelo com duas variveis expli-cativas e quatro parmetros. A funo escolhida tem um ponto de sela e as funes marginais so sigmoidais. Esta escolha se baseou em anlise prvia dos dados que consistiram em 380 vetores obser-vados (Y(k), X

    1(k), X

    2(k)).

    2 41 1 3 2{[1 exp( ( ) )][exp( ( ) )]}Y X X

    = + (6.15)

    Aceitamos os seguintes valores para B com base nos valores do gradiente da funo objetivo da ordem de 10-7; do valor da mediana dos erros igual a 0,0008067 e da mdia dos erros igual a 0,000246. (b1, b2, b3, b4) = (1,41 0,79 0,24 1,18)

    PERTENCE A NOME DO CLIENTE

  • 46 Mtodos para Modelagem

    As tcnicas no lineares mencionadas so tambm teis para mo-delos baseados em redes neurais, como ser visto mais adiante.

    REGRESSO LOGSTICAO modelo de regresso logstica tem sido utilizado para a resoluo de problemas de classi cao supervisionada. Considere dois even-tos mutuamente exclusivos A e A, ento P(A)/P(A) so as chances em favor do evento A. No modelo de regresso logstica, assume-se que o logaritmo das chances, logit, linearmente relacionado com as variveis explicativas.

    0 1 1 2 2

    ( ) ( ) ...( ') 1 ( ) r rP A P AE log E log X X XP A P A

    = = + + + + (6.16)A razo de chances entre dois grupos diferentes dada por:

    ( | 1)( ' | 1)( | 2)( ' | 2)

    P A GP A GP A GP A G

    =

    (6.17)

    No modelo, P(A) representa um parmetro, designado por p. Este modelo foi introduzido por Joseph Berkson em 1944, que denomi-nou a expresso log(p/(1-p)) de logit, desta maneira tornou possvel

    S1

    S8

    S15

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    1 4 7 10 13 16 19

    Y

    X2

    X1

    Figura 6.3. Superfcie de Regresso.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 47

    O gr co ilustra uma situao onde se tem uma resposta a rma-tiva ou negativa para valores diferentes da varivel X. Por exemplo, resposta promoo de um produto em funo da renda do cliente. A resposta a rmativa codi cada como 1 e a negativa como 0. Ajus-ta-se ento um modelo, que para novos clientes dar a probabilidade de se aceitar a promoo.

    Exemplo

    Neste caso h apenas uma varivel explicativa sexo, a varivel logstica exprime o logaritmo das chances em favor de comprar. Os valores ajustados para os coe cientes beta foram respectivamente 2,31 e 1,04. O ajuste feito via critrio de mnimos quadrados ou mxima verossimilhana. Assim se o cliente for homem (X = 0) a probabilidade de comprar ser igual a 0,09. Enquanto, se for mulher (X = 1) este valor ser igual a 0,2.

    sarpmoC\oxeS miS oN latoT

    rehluM 04 341 381

    memoH 01 101 111

    latoT 05 442 492

    a regresso de p sem a inconvenincia destes valores carem fora do intervalo [0,1].

    0 1 1( ... )1

    1 r rX Xp

    e + + +=

    + (6.18)

    1

    0 X

    P

    Figura 6.4. Regresso Logstica.

    PERTENCE A NOME DO CLIENTE

  • 48 Mtodos para Modelagem

    Uma questo que sempre colocada na anlise de regresso a da multicolinearidade. Entretanto para o uso preditivo da regresso a multicolinearidade no um problema. O nico inconveniente seria o tamanho dos desvios-padro dos erros de estimao, o que pode ser minorado aumentando-se o tamanho da amostra, procedimento usualmente possvel no caso da minerao de dados.

    A regresso logstica est associada a outro mtodo que ser apresentado anlise discriminante.

    No Anexo IV apresentado em um estudo de caso utilizando regresso logstica para classi cao supervisionada em uma apli-cao preveno de acidentes de trabalho.

    Os casos de regresso linear e logstica podem ser vistos como casos particulares de um modelo mais geral denominado modelo linear generalizado que atribui diferentes funes de ligao (link function) entre as variveis de entrada e as de sada. No caso linear esta funo a funo identidade, no caso logstico a funo logit, havendo ainda outras expresses cuja utilizao depende da distri-buio assumida para as covariveis de entrada normal e binomial, respectivamente, para os casos apresentados aqui. A regresso logstica contempla variveis de sada, ou alvo, categricas, diferen-temente dos mtodos de predio linear e no linear, ainda que a predio seja expressa por meio do valor de uma probabilidade.

    RVORES DE CLASSIFICAOUm procedimento hierrquico para predizer a classe de um objeto com base em suas variveis preditoras (o mtodo pode tambm ser utilizado para de nir classes). A varivel alvo obviamente categri-ca e o mtodo permite sua predio em funo dos nveis observados das variveis preditoras, as quais tambm devem ser categricas, Caso no sejam, necessrio codi c-las convenientemente. Os mtodos mais conhecidos so: CART (classi cation regression tree); CHAID (Chi-Square Automatic Interaction Delection); e QUEST (Quick, Unbiased, Ef cient Statistical Trees). Vamos descrever o pro-cedimento CART. As classes so conhecidas e est disponvel uma amostra de treinamento. Por exemplo suponhamos uma agncia bancria que classi ca seus clientes em top e standard baseado na experincia do gerente e deseja-se extrair dessa classi cao uma

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 49

    regra para enquadrar novos clientes da agncia. Consideraremos a seguinte amostra de treinamento:

    A primeira fase do mtodo consiste em construir uma rvore denominada rvore mxima. Esta rvore construda com base em limiares para as variveis preditoras, no caso: sexo, renda e idade. A rvore expandida at que seus ns terminais satisfaam um dos seguintes critrios:

    a) pureza maioria de elementos da mesma categoria;

    b) raridade nmero mnimo de elementos no n;

    c) inde nio os valores das variveis preditoras prximos ou iguais.

    Para a amostra acima, uma rvore mxima seria obtida para os seguintes limiares:

    Para cada varivel preditiva calculado o ndice de diversidade (ou entropia) relativo amostra de treinamento. Este ndice com-parado com o ndice global de diversidade, selecionando-se assim a ordem de construo das camadas da rvore. Para o exemplo dado, teramos, usando logaritmo na base 2:

    Sexo: 1 (H=1 e M=0)Renda:

    2000

    Idade: 18

    1

    2 3

    4 5

    3 Tops

    3 Tops

    3 Tops

    3 Standards

    1 Standards2 Standards

    1 Standards

    Figura 6.5. rvore de Classi cao.

    oxeS lasneMadneR edadI airogetaC

    memoH 000.5 05 poT

    rehluM 000.1 03 dradnatS

    rehluM 000.3 51 dradnatS

    memoH 005 51 dradnatS

    memoH 000.2 52 poT

    memoH 009.1 02 poT

    PERTENCE A NOME DO CLIENTE

  • 50 Mtodos para Modelagem

    Portanto as variveis sexo e idade devem ser as primeiras na construo da rvore e a varivel renda (neste caso) desnecessria. A etapa seguinte a de poda.

    Seja T a borda da rvore i.e. {3, 4, 5}. Tenta-se ento melhorar a rvore iniciando-se um processo de poda. A poda ser feita se ela contribuir para a melhoria da classi cao. Um ndice que mede esta melhoria o ndice de Gini calculado para cada n, se r(t)=0 s h um tipo de cliente, caso contrrio h mais de um tipo. Este ndice proposto por Conrado Gini (1884-1965) tambm um ndice de diversidade:

    ( ) 1 max{ ( | ), ( tan | )}r t P top t P s dard t= (6.19)

    ( )

    tan

    ( )( )( | ) ( )( )

    ( ) ( tan )( ) ( )

    top t

    s dardtop

    nP top

    n tP top t n tn tP top P s dard

    n t n t

    =

    + (6.20)

    1

    1

    18

    18

    ( ) 3 / 6 (3 / 6) 3 / 6 (3 / 6) 1( ) 1/ 4 (1/ 4) 3 / 4 (3 / 4) 1/ 4

    ( ) 0( ) 1/ 4 4 / 6 0* 2 / 6 1/ 6

    ( ) 1 1/ 6 5 / 6( ) 2 / 2 * (2 / 2) 0

    (

    sexo

    sexo

    sexo

    idade

    idade

    I categoria log logI categoria log logI categoriaE IGanho sexoI categoria logI c

    = =

    = =

    =

    = + =

    = =

    = =

    2000

    2000

    ) 3 / 4 * (3 / 4) 1/ 4 * (1/ 4) 1/ 4( ) 0* 2 / 6 1/ 4* 4 / 6 1/ 6

    ( ) 1 1/ 6 5 / 6( ) 2 / 4 * (2 / 4) 2 / 4 * (2 / 4) 1

    ( ) 1/ 2 * (1/ 2) 1/ 2 * (1/ 2) 1(

    idade

    renda

    renda

    ategoria log logE IGanho idadeI categoria log logI categoria log logGanho ren

    >

    = =

    = + =

    = =

    = =

    = =

    ) 1 1 0da = =

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 51

    A frmula P(top) e P(standard) so as probabilidades a priori de top e standard. J n

    top (t) representa o nmero de tops no n t e n(t)

    o nmero de elementos no n. No exemplo todos os ns da borda tero r(t) = 0. Calcula-se ento R(T ) para toda a borda da rvore que dado pela frmula:

    ( ) ( ) ( )t T

    R T r t p t

    =

    (6.21)

    Aonde p(t) representa o peso do n, por exemplo, o nmero de elementos do n. A poda ser feita se R( 1iT + ) < R( iT ) e assim por diante at no se conseguir mais reduzir R( iT ) para algum i, onde i denota a iterao corrente. Este ndice minimiza o erro de classi -cao. No exemplo muito simples considerado R( iT ) = 0, portanto no h podas a fazer.

    O mtodo tem ampla aceitao pela sua visualizao que ajuda o usurio a compreender o processo de classi cao. Ou seja dado um novo cliente, determina-se a qual folha (n de borda ou terminal) ele pertence e atribui-se a classe que maximiza a probabilidade condicional da classe dado que est naquele n. No exemplo, como a pureza dos ns terminais absoluta, o resultado bvio. Mas se no fosse assim, seria necessrio calcular as probabilidades con-dicionais de cada classe dado t e ento escolher a classe que deu a maior probabilidade condicional.

    Para os dados seguintes construir uma rvore de classi cao, tendo como varivel alvo a opo de compra de um computador, e como variveis explicativas, a faixa etria, a faixa de renda, o nvel de escolaridade e a avaliao de crdito.

    PERTENCE A NOME DO CLIENTE

  • 52 Mtodos para Modelagem

    Usando o critrio da diversidade ou entropia, a primeira varivel a entrar na rvore a idade, em seguida a escolaridade e nalmente o crdito. A renda, neste caso, no foi necessria, pois a rvore cou completa antes de sua introduo.

    REDES NEURAISAs origens destas tcnicas remontam a 1943 com os trabalhos de McCulloch e Pitts, mas somente em 1953, Nathaniel Rochester si-mulou a primeira rede neural.

    So mtodos inspirados no funcionamento do crebro humano, em particular na forma como os neurnios reagem e propagam estmulos formando uma rede neuronal, ou neural. A capacidade humana de reconhecer padres e identi car classes justi cou o desenvolvimento de uma metodologia geral para identi cao de padres (classi cao supervisionada ou predio de classe). H trs tipos bsicos de redes neurais: perceptron, funo de base radial e mapas auto-organizveis.

    Vamos descrever em particular uma rede perceptron com apren-dizagem por retropropagao (backpropagation).

    Figura 6.6. rvore de Classi cao do exerccio.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 53

    A conectividade da rede especi ca como os neurnios esto interligados entre si, para a arquitetura em camadas. A verso mais simples composta de trs camadas: entrada, interna e sada. De uma maneira geral, as redes podem ser classi cadas quanto ao paradigma, arquitetura, conectividade e aprendizado.

    No esquema abaixo, visualizamos uma rede com um n de entrada e um n de sada, na rede intermediria temos trs ns. Mas, em geral, poderamos ter n ns de entrada, l ns intermedirios e m ns de sada. A funo g denominada de funo de ativao. X

    1, X

    2,...,X

    n

    so as variveis regressoras e Y1,Y

    2,...Y

    m as preditas. A funo de pro-

    pagao d o estmulo produzido para camada intermediria:

    1

    n

    j ji i ji

    P W X =

    = + (6.22)

    Por outro lado, a funo de sada da camada intermediria dada por:

    ( )j j jA g P= (6.23)

    aonde jg a funo de ativao do neurnio j, em geral uma funo sigmoidal da forma

    1( )(1 )p

    A pe

    =

    + (6.24) Analogamente, para um n K da camada de sada a funo de

    propagao dada por

    Dendritos Corpo Axnio colaterais

    Figura 6.7. Modelo de um neurnio.

    PERTENCE A NOME DO CLIENTE

  • 54 Mtodos para Modelagem

    1

    l

    k kj j kj

    P W A =

    = + (6.25)

    e a funo de ativao por

    ( )k k kA g P= (6.26)

    Para simpli car, no gr co abaixo, consideramos apenas um neurnio de entrada e um de sada.

    Na fase de treinamento, isto , para um conjunto conhecido de valores de entrada e sada ajustam-se os pesos de forma que o erro seja aceitvel. Seja k o erro do k-simo elemento de sada, o erro total

    2

    1

    12

    m

    p kk

    E =

    = (6.27)

    deve ento ser reduzido a cada iterao. Isto conseguido atuali-zando-se os pesos tanto da camada intermediria como da camada de sada. As frmulas seguintes do as regras de atualizao res-pectivas (camadas de sada e intermediria), baseadas no mtodo do gradiente para minimizar o erro quadrtico mdio. O mtodo do gradiente um mtodo de otimizao que busca o mnimo de uma funo percorrendo o seu domnio na direo oposta ao seu gradiente.

    (6.28)

    (6.29)

    x j j jP W x = + ( )j j jA g P= ( )y A g P= =1

    l

    j j

    j

    P W A =

    = +

    I H OFigura 6.8. Rede neural.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 55

    uma constante de acelerao que deve car entre 0 e 1; g a derivada da funo de ativao.

    Aprendizado por Retropropagao de erros

    1 Aplicar o vetor X em todos os elementos da camada de entrada

    2 Calcular os valores de propagao da camada intermediria

    3 Calcular os valores de sada da camada intermediria

    4 Calcular os valores de propagao da camada de sada

    5 Calcular as respectivas sadas

    6 Calcular os erros para cada elemento de sada

    7 Calcular os erros para cada elemento intermedirio

    8 Atualizar os pesos da camada de sada

    9 Atualizar os pesos da camada intermediria

    10 Calcular o erro total

    11 Se o erro for aceitvel, encerrar. Caso contrrio, passar para outro conjunto de treinamento retornando ao passo 1.

    A m de ilustrar a aplicao do mtodo apresentado, considere o seguinte exemplo de rede:

    X1, X2, X3 so as variveis de entrada e Y a varivel de resposta.Wij, i = 1, 2, 3 e j = 4, 5 so os ponderadores de propagao para a camada intermediria.Wij, i = 4, 5 e j = 6 so os ponderadores multiplicativos de propagao para a camada de sada.Ti, i = 4, 5, 6 so ponderadores aditivos de propagao para as cama-das intermediria e de sada.Oi, i = 1, 2, 3, 4, 5, 6 so os ns da rede.

    Vamos supor, para ns de inicializao, que os seguintes valores tenham sido assumidos pelas variveis e ponderadores:

    1

    2

    3

    4

    5

    6Y

    PERTENCE A NOME DO CLIENTE

  • 56 Mtodos para Modelagem

    Com base nesta tabela podemos calcular os valores que chegam nos ns 4 e 5, aps a entrada dos valores 1, 0 e 1 nos ns 1, 2 e 3:P4:X1*W14+X2*W24+X3*W34+4=1*0,2+0*0,4+1*(-0,5)+(-0,4)= 0,7P5:X1*W15+X2*W25+X3*W35+5=1*(-0,3)+0*(0,1)+1*0,2= 0,1

    Aps a aplicao da funo de ativao g(x) = 1/ (1+exp(-x)) a cada n, obtemos os valores de sada respectivos:A4 = g(P4)=1/(1+exp(0,7)) = 0,332

    A5 = g(P5)=1/(1+exp(-0,1)) = 0,525

    Calculamos agora os valores propagados da camada intermedi-ria para a camada de sada que s tem o n 6:P6: A4*W46+A5*W56+6=0,332*(-0,3)+0,525*(-0,2)+0,1= 0,105A6 = g(P6) = 1/(1+exp(0,105)) = 0,474

    Clculo do erro:Comparando-se com o valor observado que 1, tem-se que o

    erro = (1-0,474)Vamos agora recalcular os ponderadores para as camadas de

    sada a partir do erro e da derivada da funo de ativao (mtodo do gradiente), vai-se utilizar uma constante de acelerao = 0,9:W46(t+1)=W46(t) + **g(P6)*A4= 0,3+0,9*0,526*0,249*0,332= 0,261

    W56(t+1)= W56(t) + **g(P6)*A5= 0,138Aplicando-se agora a frmula (6.29) obtm-se a atualizao dos

    demais ponderadores. O usurio pode estabelecer diversos critrios de parada, tais como tolerncia de erro, nmero de tempos, ndice de acer-tos. No exemplo, a seguir, descrevemos uma aplicao do mtodo.

    Uma rede neural constituda por um nico neurnio deno-minada de perceptron de camada nica e equivalente regresso logstica univariada. Aps a fase de treinamento, a rede est pronta para predizer a categoria de um novo vetor X. No livro de S. Haykin, sobre Redes Neurais, listado na bibliogra a, encontra-se uma ampla exposio sobre esta teoria.

    1X 2X 3X Y 41W 51W 42W 52W

    1 0 1 1 2,0 3,0- 4,0 1,0

    43W 53W 64W 65W 4 5 6

    5,0- 2,0 3,0- 2,0- 4,0- 2,0 1,0

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 57

    ExemploA metodologia citada foi utilizada para reconhecimento de letras latinas e algarismos arbicos com inclinaes mltiplas. Para cada caracter foram geradas 13 imagens com inclinaes mltiplas de 15 graus va-riando de 90 a 90 graus, mais detalhes podem ser encontradas na tese de Varella L. E. citada na Bibliogra a. A tabela abaixo d o percentual de reconhecimento versus o nmero de camadas intermedirias.

    Tambm foram feitos testes em separado para cada letra e alga-rismo, obtendo-se:

    sadamaC .hnoceR% sadamaC .hnoceR% sadamaC .hnoceR%

    01 65,2 801 35,16 612 97,17

    61 65,2 021 66,66 032 50,28

    23 52,01 031 84,97 062 71,78

    04 96,7 041 97,17 082 16,48

    65 46,52 051 53,47 003 84,97

    86 67,03 071 84,97

    08 82,15 681 97,17

    29 17,84 002 50,28

    PERTENCE A NOME DO CLIENTE

  • 58 Mtodos para Modelagem

    *Ac. Reconhecimento positivo (con rma que ).Rej. Reconhecimento negativo (con rma que no ).Obs.: As camadas foram sendo acrescentadas at que pelo me-nos um dos percentuais casse acima de 90%. Fonte: Varella L. E. (1992).

    No anexo IV apresentado um estudo de caso que utiliza redes neurais para classi cao supervisionada em aplicaes a doadores potenciais de uma organizao no-governamental.

    ANLISE DISCRIMINANTEAnlise discriminante linear uma tcnica estatstica para a classi ca-o de elementos em grupos previamente estabelecidos. A anlise se baseia em combinaes lineares das variveis independentes que do uma espcie de score do objeto observado, obtendo-se em seguida uma probabilidade daquele objeto pertencer a um dos grupos.

    XXXXXXXXXXX XXXXX

    XXXXXXXXXXXX

    XXXXXXX

    Funo discriminante Y

    A

    B

    A

    B

    X1

    X2

    +++++++++++++++++++++++++++++++++

    Figura 6.9. Funo discriminante.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 59

    Duas condies precisam ser observadas: as variveis indepen-dentes devem ter uma distribuio multinormal e a matriz de vari-ncias-covarincias das variveis independentes devem ser iguais em cada grupo. A analogia com a anlise de regresso apenas super cial. Na anlise de regresso a meta predizer o valor mdio da varivel dependente, enquanto que na anlise discrimi nante o objetivo determinar uma combinao linear das variveis inde-pendentes de tal forma que a probabilidade de classi car erronea-mente o elemento seja mnima. O modelo de regresso busca gerar coe cientes que tenham determinadas propriedades estatsticas, a anlise discriminante, por outro lado, busca classi car elementos em grupos. Para o caso de dois grupos, a obteno dos coe cientes seria dada pelas seguintes frmulas, aonde os vetores so colunas e seus transpostos linhas:

    Vetores de observaes dos dois grupos,cujas componentes so as mdias amostrais de cada atributo dentro do grupo i:

    1 2' ( , ,..., ) 1, 2i i i ipx x x x i= = (6.30)

    Matriz conjunta dos dois grupos:

    ' '

    1 1 2 2

    1 2

    1( )

    2S x x x x

    n n= +

    + - (6.31)

    Coe cientes da funo discriminante:

    1

    1 2 ( )b S x x= (6.32)

    ExemploConsidere dois grupos G1 e G2 e dois vetores observados em cada um deles

    X\GRUPO G1 G2

    1x 1,96 1,292x 1,27 1,793x 0,65 0,38

    PERTENCE A NOME DO CLIENTE

  • 60 Mtodos para Modelagem

    A matriz S :

    0,13 -0,052 -0,0037 -0,052 0,12 -0,0021 -0,0037 -0,0021 0,3211

    E os coe cientes da funo discriminante so:

    11 2

    ' ( ) [2,042 1,19 0,41]b S x x= =

    1 2 32,042 1,19 0,41Y X X X= +

    Valores maiores de Y esto associados ao grupo 1, alis 1 2,77y =e 2 0,67y = . Uma regra de classi cao dada por:

    1 2 1 | '( ) | | '( ) |b x x b x x x G

    2 1 2 | '( ) | | '( ) |b x x b x x x G

    (6.33)

    No exemplo o vetor [1,1,1] pertence ao grupo 2 porque est mais prximo via funo discriminante do grupo 2 do que do grupo 1:

    2 1 | '( ) | 0,19 | '( ) | 1, 49b x x b x x = < =

    Estas idias podem ser generalizadas para K grupos, a obteno de b dada por:

    (6.34)

    1

    1 2

    1

    1 1

    ( ) 0

    ...

    ( )( ) '

    ( )( ) '

    ' '

    i

    i

    kn

    i ij i ij ij

    nk

    ij ij ii j i

    W B I baondeW W W W

    W x x x x

    T x x x x n n

    B T W

    b Bbb Wb

    =

    = =

    =

    = + + +

    =

    = =

    =

    =

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 61

    Neste caso so geradas no mximo k-1 funes discriminantes, seu poder discriminatrio dado pelo ndice descritivo de impor-tncia relativa:

    i

    jj

    (6.35)

    Podendo-se utilizar a mesma desigualdade apresentada para dois grupos agora generalizada para k grupos isto :

    | '( ) | | '( ) | 1,..., 1i jb x x b x x j i j k = (6.36)

    para classi car um vetor x.O mtodo de anlise discriminante pode ser relacionado ao

    mtodo de regresso logstica. A probabilidade de um elemento, descrito pelo vetor de atributos x, pertencer a um grupo dada pela equao de regresso logstica. Os mtodos de anlise discriminante que foram apresentados so lineares. Existem tambm as funes discriminantes no lineares, como a quadrtica. Entretanto, neste caso, os coe cientes da funo discriminante so calculados implici-tamente, o que prejudica interpretaes dos resultados alcanados. No livro de Malhotra,N.K. sobre pesquisa de marketing, citado na bibliogra a o leitor poder saber mais sobre esta tcnica.

    ANLISE DE SIMILARIDADE E DE CONGLOMERADOSTodos os mtodos apresentados previamente foram mtodos de predio ou de classi cao supervisionada mtodos preditivos no jargo da minerao de dados. A anlise de similaridade e de conglomerados pertencem a outra categoria a dos mtodos de classi cao no supervisionada mtodos descritivos no jargo da minerao de dados. Nesse problema no se sabe quais so os grupos, nem mesmo quantos so.

    a) Medidas de Similaridade permitem comparar n elementos diferentes a partir de p atributos observados. Estas medidas agrupam-se em duas grandes categorias:

    Medidas baseadas na distncia utilizadas quando os atributos so quantitativos.

    PERTENCE A NOME DO CLIENTE

  • 62 Mtodos para Modelagem

    Embora o termo distncia possa ser identi cado com o compri-mento do vetor entre dois pontos no espao, a de nio de distncia vai muito alm disto, permitindo uma in nidade de frmulas. Basta que sejam satisfeitas as seguintes propriedades:

    Positividade ( , ) 0d X Y

    Simetria ( , ) ( , )d X Y d Y X=

    Desigualdade triangular ( , ) ( , ) ( , )d X Y d Y Z d X Z+

    Uma famlia vlida de distncias, aonde os duplos sub-ndices representam respectivamente a k-sima coordenada dos vetores X

    i

    e Xj, da forma:

    1/

    1

    | |

    rp

    r

    ij ik jk

    k

    d X X=

    = (6.37)

    Quando r=2 obtemos a usual distncia euclideana, j para r=1, obtemos a distncia do mdulo (ou mtrica do quarteiro). Um problema da mtrica euclideana a sua dependncia em relao mudana de escalas. Por exemplo se tivermos os atributos peso e altura medidos para trs pessoas A, B e C inicialmente em libras e ps e, depois em libras e polegadas, as distncias relativas entre as pessoas apresentaro ordenaes diferentes, como se depreende do que se segue:

    No caso das alturas medidas em ps temos: dBC=2,01 < dAB= 3,08 < dAC= 5,02

    J para polegadas as distncias se alteram

    dBC= 3,12 < dAC = 7,81 < dAB = 8,92

    aosseP )sarbil(oseP )sp(arutlA )sadagelop(arutlA

    A 061 5,5 66

    B 361 2,6 4,47

    C 561 0,6 27

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 63

    Uma outra medida de similaridade o coe ciente de correlao, porm, na presena de multicolinearidade os resultados podem ser de pouca utilidade, por exemplo:

    RAB

    =1 porque B=3*A + 1 e RAC

    =0,82, no entanto, bvio que A e C so quase idnticos. Este problema pode comprometer, inclusive, mtodos j vistos como a regresso linear, se no fsse a propriedade de Mahalanobis que permite calcular um tipo de distncia que leva em conta a correlao entre as variveis:

    1( ) ' ( )Mahalanobis i j i jd X X S X X

    = (6.38)

    No exemplo acima ao calcular S-1 necessariamente algum atri-buto teria de ser descartado, no caso X3 ou X4.

    Medidas baseadas na coincidncia utilizadas quando os atri-butos so qualitativos. Embora, a princpio, qualquer varivel quantitativa possa ser codi cada simbolicamente e tornar-se qualitativa. Por exemplo atravs de um valor limiar pode-se dizer que um objeto ou elemento tem ou no determinada caractersti-ca. Aps esta codi cao, constroem-se estatsticas tais como:

    (1-1) os dois objetos tm o mesmo atributo

    (1-0) um dos objetos tem o atributo e o outro no

    (0-1) vice-versa

    (0-0) os dois objetos no tm o atributo

    ExemploCasado 1 empresrio 1 casa prpria 1Solteiro 0 empregado 0 casa alugada 0Cliente 1: (casado, empregado, casa prpria) 101Cliente 2: (casado, empresrio, casa alugada) 110

    sotubirtA\aosseP 1X 2X 3X 4X

    A 1 3 2 2

    B 4 01 7 7

    C 1 2 2 2

    PERTENCE A NOME DO CLIENTE

  • 64 Mtodos para Modelagem

    Cliente 1 /Cliente 2 1 01 1 10 1 0

    Com base nas freqncias observadas nas clulas podem ser construdos vrios ndices:

    Coincidncia simples:

    11 22

    11 12 21 22

    1/ 3O OO O O O

    +=

    + + + (6.39)

    Sokal e Sneath:

    11 22

    12 21 11 22

    2( ) 2 / 52( )

    O OO O O O

    +=

    + + + (6.40)

    Russell e Rao:

    11

    11 12 21 22

    1/ 3OO O O O

    =

    + + + (6.41)

    Os ndices se diferenciam pela importncia do tipo de coincidn-cia, alguns priorizando a presena do atributo, outros a ausncia, ou ambas as coincidncias.

    b) Anlise de Agrupamento Uma vez selecionada a medida de simi-laridade preciso estabelecer como os grupos sero formados. Duas grandes classes de mtodos podem ser consideradas: mtodos hie-rrquicos e mtodos de particionamento. Os mtodos hierrquicos promovem uma seqncia de fuses (aglome rativos) ou divises. Os mtodos aglomerativos iniciam com n agrupamentos aonde n o nmero de elementos. Dois agrupamentos que estejam prximos o su ciente so fundidos reduzindo o nmero de agrupamentos para n-1. O procedimento continua at julgar-se que o nmero de grupos atende aos objetivos da anlise. Existem trs critrios mais comuns de proximidade: ligao simples (ou distncia mnima); ligao completa (ou distncia mxima) e associao mdia.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 65

    ExemploConsidere cinco elementos cujas distncias estejam representadas na matriz

    0 1 5 6 81 0 3 8 75 3 0 4 66 8 4 0 28 7 6 2 0

    A B C D EABCDE

    A menor distncia entre A e B (pelo critrio da ligao simples).

    O primeiro agrupamento seria ento constitudo pelo grupo AB. Refazendo a matriz de distncias, obteramos:

    0 3 6 73 0 4 66 4 0 27 6 2 0

    AB C D EABCDE

    A menor distncia agora entre D e E o que leva a um novo

    agrupamento DE:

    Mdia do grupoLigao simples Ligao completa

    Figura 6.10. Anlise de agrupamento.

    PERTENCE A NOME DO CLIENTE

  • 66 Mtodos para Modelagem

    0 3 63 0 46 4 0

    AB C DEABCDE

    O processo continuaria at que todos os pontos estariam fun-

    didos em um s grupo. Uma representao destas etapas pode ser feita pelo dendograma:

    As tcnicas de particionamento, por outro lado, supem que o nmero de grupos conhecido, buscando-se por algum critrio parti cionar o conjunto de pontos de tal forma que a subdiviso em k grupos seja tima segundo algum critrio. Um dos mtodos mais conhecidos desta categoria o agrupamento baseado nas k mdias. Inicialmente so selecionados k elementos, a cada um deles so associados os elementos mais prximos, formando-se k grupos. Para cada um destes grupos calculado o centride, cujas coordenadas so as mdias de cada atributo ou varivel dentro do grupo. Repete-se para cada centride o processo de determinao dos elementos mais prximos, gerando-se novamente k grupos. Calculam-se os centrides para estes grupos e assim por diante at que os grupos se estabilizem. As principais de nies do mtodo esto sumarizadas a seguir:

    P(n, K): partio dos n elementos em K grupos( , )X l j : mdia da varivel j no l-simo cluster, j=1,2,...,p

    X(i, j): valor da varivel j para o i-simo elemento

    5

    4

    3

    2

    1

    A B C D E

    Figura 6.11. Dendograma.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 67

    2 1/ 2

    1( , ) ( [ ( , ) ( , )] )

    p

    jD i l X i j X l j

    =

    = : distncia do elemento i

    ao cluster l

    1 1

    [ ( , )] [ , ]k n

    jj i

    E P n K D i l= =

    = (6.42)

    soma das distncias de cada elemento i a cada cluster

    Os k grupos so escolhidos de modo que E[P(n,K)] seja mnimo, garantindo que os grupos no sejam nem muito grandes nem muito pequenos. Evidentemente, dependendo do conjunto de dados os resultados podem no ser satisfatrios, fazendo-se necessria a utilizao de outros critrios alm da distncia. O mtodo funciona bem para conjuntos convexos cujos sub-grupos iniciais sejam de tamanhos semelhantes. No livro de Han e Kamber, j citado anterior-mente, pode-se encontrar outros mtodos para agrupamento.

    ExemploConsidere um conjunto de cinco objetos dos quais dois atributos foram observados com os valores seguintes: A(0,0); B(1,0); C(1,1); D(5,1) e E(8,0). Queremos classificar estes elementos em dois grupos. O critrio de proximidade que ser utilizado a distncia euclideana.

    Inicialmente sero arbitrados dois objetos como de nidores dos grupos 1 e 2, a saber, respectivamente os objetos D e E, designados como M1 e M2. Aps calcular as distncias entre estes pontos e

    Figura 6.12. Mtodo das K-mdias.(a) cinco observaes de dois atributos; (b) clculo da distncia a cada centride; (c) alocao a um dos grupos

    (a)

    X1

    X2

    (b)

    X1

    X2

    ??

    (c)

    X1

    X2

    PERTENCE A NOME DO CLIENTE

  • 68 Mtodos para Modelagem

    os demais, associamos a cada grupo os objetos mais prximos de objeto referncia.D(A,M1)=5,1 D(B,M1)= 4,12 D(C,M1)=4 D(D,M1)=0

    D(A,M2)=8 D(B,M2)= 7 D(C,M2)=7,07 D(E,M2)=0

    Com base nesta iterao os grupos cam:G1: D,A,B,C G2:E

    Calculam-se agora os centrides de cada grupo que passam a ser os novos objetos de referncia:M1=(1,75 0,5) M2=(8,0)

    Recalculam-se as distncias de todos os objetos aos novos cen-trides:D(A,M1) =1,82 D(B,M1)=0,9 D(C,M1)=0,9 D(D,M1)=3,29

    D(A,M2)=8 D(B,M2)=7 D(C,M2)=7,07 D(D,M2)=3,16

    Com base nesta iterao os grupos camG1:A,B,C G2:E,D

    Calculam-se agora os centrides de cada grupo que passam a ser os novos objetos de referncia:M1=(0,66 0,33) M2=(6,5 0,5)

    Recalculam-se as distncias de todos os objetos aos novos cen-trides:D(A,M1)=0,74 D(B,M1)=0,47 D(C,M1)=0,74 D(D,M1)=4,38 D(E,M1)=7,34

    D(A,M2)=6,52 D(B,M2)=5,52 D(C,M2)=1,58 D(D,M2)=3,16 D(E,M2)=1,58

    Com base nesta iterao os grupos continuam os mesmos da iterao anterior:G1:A,B,C G2:E,D

    Aceita-se ento esta classi cao como a melhor para o con-junto de objetos. Outro critrio de parada o clculo da soma das distncias aos centrides de cada cluster E[P(n,k)]. Na primeira

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 69

    iterao este valor 59, na Segunda iterao cai para 15,02 e ao nal para 6,31. No Anexo IV h um estudo de caso sobre categorizao de clientes em uma instituio nanceira que faz uso do mtodo das k-mdias.

    ANLISE DE AFINIDADEBusca relaes entre elementos em um conjunto de dados. Basica-mente h trs classes de critrios que so levados em conta: tipos de valores (binrio, categrico, quantitativo); dimensionalidade (quantidade versus idade) e nvel de abstrao (biscoito, leite ou produtos matinais). A intensidade da associao pode ser expressa pelos seguintes ndices:

    suporte: proporo de vezes em que a relao ocorre

    con ana: proporo de vezes em que dado que um evento ocorre, ento outro evento ocorre

    alavancagem: fator que d a intensidade de a nidade de um evento B com outro evento A

    Exemplo suporte: 75% dos clientes em um supermercado consomem leite e

    po (tipo booleano, bi-dimensional,mesmo nvel de abstrao)

    con ana: 80% dos clientes que consomem leite consomem po (idem)

    con ana: 75% dos clientes que consomem po consomem leite (idem)

    alavancagem: um cliente que consome leite consumir po com um fator igual a cinco (idem)

    alavancagem: um cliente que consome po consumir leite com um fator igual a dois (idem)

    Quando se observa a ordem em que os eventos ocorreram pode-se observar padres de compra. Isto muitas vezes determina como os produtos, por exemplo, em um supermercado devem estar dispostos em funo do percurso mais provvel do cliente. Isto tambm considerado em sites de compra na Internet. Em funo dos hbitos de navegao, pode-se dispor as diferentes janelas de modo a favorecer uma seqncia de compras.

    PERTENCE A NOME DO CLIENTE

  • 70 Mtodos para Modelagem

    As medidas de suporte, alavancagem e con ana tambm po-dem ser calculados, por exemplo, a tabela abaixo d o nmero de visitantes para as pginas mais requisitadas de um site durante um perodo determinado.

    sadatisiuqersiamsanigP satisiV latotod%

    1 lmth.xedni/rb.moc.tenkcor.www//:ptth 274.11 47,94

    2 lmth.ratcenoc/rb.moc.tenkcor.www//:ptth 496.2 86,11

    3 lmth.swen/rb.moc.tenkcor.www//:ptth 335.1 46,6

    4 lmth.omoc/rb.moc.tenkcor.www//:ptth 774.1 04,6

    5 lmth.ebulc/rb.moc.tenkcor.www//:ptth 479 22,4

    latot 051.81 96,87

    Fonte: Construo de Websites Comerciais, Andr Valle, FGV-EPGE.

    sodirrocrepsiamsohnimaC latotod%

    1 lmth.xedni/rb.moc.tenkcor.www//:ptth 20,94

    2 lmth.xedni/rb.moc.tenkcor.www//:ptth lmth.ratcenoc/rb.moc.tenkcor.www//:ptth 71,8

    3 lmth.xedni/rb.moc.tenkcor.www//:ptth lmth.swen/rb.moc.tenkcor.www//:ptth 78,5

    4 lmth.xedni/rb.moc.tenkcor.www//:ptth lmth.omoc/rb.moc.tenkcor.www//:ptth 01,1

    5lmth.xedni/rb.moc.tenkcor.www//:ptthlmth.omoc/rb.moc.tenkcor.www//:ptth

    lmth.odnalatsni/rb.moc.tenkcor.www//:ptth88,0

    latot 60,56

    Fonte: