Tsg web mining

  • View
    201

  • Download
    1

Embed Size (px)

Text of Tsg web mining

  • 1. Universidade do Minho Escola de Engenharia Licenciatura em Tecnologias e Sistemas de Informao Tecnologias de Suporte GestoAnlise dos dados recorrendo a algoritmos de Data Mining Guimares, 2011

2. Tecnologias e Sistemas de Informao Universidade do Minho 3. Tecnologias e Sistemas de InformaoUniversidade do Minhondice1.Introduo .............................................................................................................................. 1 1.1.Descrio do problema ................................................................................................. 1 1.2.Objectivos ..................................................................................................................... 1 1.3.Resultados a atingir ...................................................................................................... 1 1.4.Estrutura do relatrio .................................................................................................... 12.Criao dos modelos de previso ........................................................................................... 2 2.1.Introduo ..................................................................................................................... 2 2.2.Modelao e avaliao.................................................................................................. 32.2.1. Redes neuronais......................................................................................................... 32.2.2. Clustering .................................................................................................................. 92.2.3. rvores de deciso .................................................................................................. 123.Concluso ............................................................................................................................. 174.Bibliografia .......................................................................................................................... 17Anexo I ............................................................................................................................................ 1 Criar tabela DMOnlineProduto .................................................................................................. 1 Carregar dados para a tabela DMOnlineProduto ........................................................................ 3 Alterao de dados na tabela DMOnlineProduto ....................................................................... 5ndice de figurasFigura 1 Criao das vistas........................................................................................................... 3Figura 2 Criao do modelo de previso ...................................................................................... 3I 4. Tecnologias e Sistemas de Informao, Ps-laboral Etapa 6Equipa 91. INTRODUO1.1. DESCRIO DO PROBLEMAUma vez analisada e tratada a informao disponibilizada pela organizao necessrio agoraencontrar modelos descritivos, que permitam aumentar o conhecimento acerca dos dados usados,e modelos de previso para suporte do processo de tomada de deciso, que conduzam a umamelhoria do negcio.O processo de Data Mining foi realizado atravs de projectos do tipo Business Intelligenceconstantes no Microsoft Visual Studio 2008.1.2. OBJECTIVOSProduzir modelos de previso de dados.Analisar os modelos obtidos.1.3. RESULTADOS A ATINGIRDar resposta s questes de suporte para a tomada de deciso.1.4. ESTRUTURA DO RELATRIOEste trabalho apresenta-se estruturado em cinco captulos: Introduo, onde descrito o problema a tratar, a finalidade deste trabalho, os artefactos a apresentar e a estrutura deste relatrio; Criao dos modelos de previso, onde so desenvolvidos e analisados os modelos de previso de dados; Concluso, onde constam as consideraes finais sobre o trabalho desenvolvido; Bibliografia, onde consta o material bibliogrfico consultado para suporte terico do trabalho. 1 5. Tecnologias e Sistemas de Informao, Ps-laboral Etapa 6 Equipa 92. CRIAO DOS MODELOS DE PREVISO2.1. INTRODUOA descoberta de conhecimento em bases de dados o processo que permite a identificao depadres ou tendncias nos dados por aplicao de tcnicas, mtodos e algoritmos de DataMining, para posteriormente a interpretao desses padres suportarem a tomada de deciso.A metodologia de referncia para projectos de Data Mining a Cross Industry Standard Processfor Data Mining (CRISP-DM), constituda por seis fases.Enquanto que na primeira fase desta metodologia, compreenso do negcio, faz-se olevantamento da informao disponvel sobre a situao do negcio, tratando ento os objectivosda organizao em objectivos Data Mining, na fase seguinte, compreenso dos dados, faz-se arecolha dos dados disponveis, a anlise e explorao dos mesmos e por fim a verificao daqualidade destes; se apresentam erros, qual o seu tipo e frequncia, e se h dados em falta.A terceira fase, preparao dos dados, engloba a seleco de tabelas, atributos e registosnecessrios anlise, bem como a transformao, limpeza e formatao dos dados.Estas trs fases foram j sendo executadas ao longo de todo o projecto, tendo sido agorarealizados os devidos ajuste, dando realce converso das tabelas numa nica, neste caso emduas, uma referente s vendas a lojas e outra s vendas online. A criao das tabelas, com aeliminao dos campos de carcter meramente informtico e dos registos duplicados e nulos, foirealizada com instrues SQL, atravs do SQL Server Management Studio, exemplificadas noAnexo IJ na fase de modelao, so aplicadas as tcnicas de modelao redes neuronais, rvores dedeciso e clustering, adiante descritas, juntamente com a avaliao dos modelos obtidos,concluindo assim a fase de avaliao.Na ltima fase, desenvolvimento, produzido um relatrio com os resultados obtidos, ficandoagora do lado da organizao a monitorizao, manuteno, reviso e avaliao do projecto.2 6. Tecnologias e Sistemas de Informao, Ps-laboralEtapa 6Equipa 92.2. MODELAO E AVALIAOFigura 1 Criao das vistasUma vez criada a tabela com os dados referentes ao processo de venda a lojas e outra com osdados relativos s aquisies online, foram criadas as vistas sobre estas duas tabelas,DMLojasSimples e DMOnlineSimples, conforme Figura 1.Figura 2 Criao do modelo de previsoEstamos agora aptos para criar os modelos pretendidos, tendo por base as vistas criadas, conformeFigura 2.2.2.1. Redes neuronaisRedes neuronais so sistemas de classificao modelados segundo os princpios do sistemanervoso humano. O algoritmo de redes neuronais combina cada estado do atributo de entrada,input, com cada estado possvel do atributo de sada, predict, e usa os dados de treino paracalcular probabilidades. Numa segunda fase usa-se essa probabilidade para prever um resultadobaseado nos atributos de input.3 7. Tecnologias e Sistemas de Informao, Ps-laboralEtapa 6 Equipa 9A seguir descreve-se o processo de criao de uma rede neuronal para determinar se maisvantajoso contratar empregados casados ou solteiros.A primeira caixa de dilogo que surge a de De seguida surge a caixa de dilogo queboas vindas ao assistente de Data Mining.permite seleccionar o mtodo usado na definio da estrutura de dados. Neste caso indica-se que se vai utilizar uma base de dados da data warehouse.Na caixa de dilogo seguinte selecciona-se a De seguida selecciona-se a fonte de dados atcnica de Data Mining a usar, neste caso a utilizar, neste caso a vista criada sobre a tabelarede neuronal. das vendas s lojas, DMLojasSimples. 4 8. Tecnologias e Sistemas de Informao, Ps-laboralEtapa 6Equipa 9Na fase seguinte selecciona-se o tipo de tabela O prximo passo consiste em indicar asque vai ser utilizada para anlise. colunas que se pretendem como inputs epredict.Na caixa de dilogo seguinte mostrado o tipo De seguida indicada a percentagem de dadosde dados dos campos seleccionados a ser utilizada para teste. Neste caso optou-seanteriormente. por utilizar 40%.5 9. Tecnologias e Sistemas de Informao, Ps-laboral Etapa 6Equipa 9Uma vez definidas as opes, inicia-se o Aps o processamento dos dados, no separadorprocessamento dos dados. Mining Models encontra-se a lista com o campo que se quer prever e os utilizados como inputs. Aqui, possvel indicar a utilizao/remoo de atributos para a redefinio do modelo.No separador Mining Model Viewer procede-se anlise dos resultados. Como se pode verificar,enquanto que na Amrica favorecida uma contratao de um empregado casado, excepto nocaso da Amrica Central, tal no acontece na Frana, Alemanha, Austrlia, onde a probabilidadede contratao de um empregado solteiro maior. Quando a comisso est compreendida entre1.228,299 e 2.738,409 tambm favorecido a contratao de um empregado casado.No separador Mining Accuracy Chart, em Lift Chart observa-se a probabilidade de acerto domodelo criado, que neste caso est acima dos 80%. 6 10. Tecnologias e Sistemas de Informao, Ps-laboralEtapa 6 Equipa 9Em Classification Matrix observa-se a matriz de classificao dos dados analisados, onde seconstata que num total de 24033 previses, existem 334 previses erradas, dando ao modelo umataxa de confiana de 98,6%.Uma vez obtido o modelo, possvel analisar a Se o territrio seleccionado para a contrataoinformao atravs de operaes de filtragem. for o Canad, ento as previses favorecem aAssim, se, por exemplo, se pretender analisar contratao de um empregado casado.qual o estado civil dos funcionrios a contratarna Frana, basta seleccionar em Attribute, darea Input, o atributo Empregado Territrio eassociar o valor France. Observando osresultados apresentados, contata-se que maisacertado contratar um funcionrio solteiro doque um casado, sobre qualquer um dosatributos em anlise. 7 11. Tecnologias e Sistemas de Informao, Ps-laboral Etapa 6 Equipa 9Foi desenvolvida outra rede neuronal para perceber, relativamente aos produtos vendidos online,que categoria de produtos e em que regio foram vendidos, por semestre.O processo de criao deste modelo foi A imagem acima apre