Mineração de Dados: Conceitos e Aplicações

Embed Size (px)

DESCRIPTION

Monografia sobre Mineração de Dados para o curso de Sistemas de Informação-UEG

Citation preview

UNIVERSIDADE ESTADUAL DE GOIS UNIDADE UNIVERSITRIA DE CINCIAS EXATAS E TECNOLGICAS BACHARELADO EM SISTEMAS DE INFORMAO

BRUNO ALISSON ELISEU DE ALMEIDA

Minerao de Dados: Conceitos e Aplicaes

Anpolis Novembro, 2011

UNIVERSIDADE ESTADUAL DE GOIS UNIDADE UNIVERSITRIA DE CINCIAS EXATAS E TECNOLGICAS BACHARELADO EM SISTEMAS DE INFORMAO

BRUNO ALISSON ELISEU DE ALMEIDA

Minerao de Dados: Conceitos e Aplicaes

Trabalho de Concluso de Curso apresentado ao Departamento de Sistemas de Informao da Unidade Universitria de Cincias Exatas e Tecnolgicas da Universidade Estadual de Gois, como requisito parcial para obteno do grau de Bacharel em Sistemas de Informao. Orientador: Prof. Esp. Ronaldo de Castro Del Fiaco

Anpolis Novembro, 2011

FICHA CATALOGRFICAALMEIDA, Bruno Alisson Eliseu de. Minerao de Dados: Conceitos e Aplicaes. Anpolis, 2011. (UEG / UnUCET, Bacharelado em Sistemas de Informao, 2011). Monografia.Universidade Estadual de Gois, Unidade Universitria de Cincias Exatas e Tecnolgicas. Departamento de Sistemas de Informao. 1. Minerao de Dados 2. Data Mining

REFERNCIA BIBLIOGRFICA ALMEIDA, Bruno Alisson Eliseu de. Minerao de Dados: Conceitos e Aplicaes. Anpolis, 2011. 59 p. Monografia Curso de Sistemas de Informao, UnUCET, Universidade Estadual de Gois.

CESSO DE DIREITOS NOME DO AUTOR: Bruno Alisson Eliseu de Almeida TTULO DO TRABALHO: Minerao de Dados: Conceitos e Aplicaes GRAU/ANO: Graduao /2011. concedida Universidade Estadual de Gois permisso para reproduzir cpias deste trabalho, emprestar ou vender tais cpias para propsitos acadmicos e cientficos. O autor reserva outros direitos de publicao e nenhuma parte deste trabalho pode ser reproduzida sem a autorizao por escrito do autor.

Bruno Alisson Eliseu de Almeida Rua T-65 N 360 Alta Vista Residencial Apto. 1403 Setor Bela Vista CEP 74823-370 Goinia GO Brasil

Dedico esse trabalho minha me e meus irmos que sempre me apoiaram e seguraram uma barra para que eu pudesse chegar at aqui. Dedico tambm esse trabalho em memria do meu pai que no me deixou desistir.

AGRADECIMENTOSAo meu orientador Prof. Ronaldo, pelo constante apoio, incentivo, dedicao e amizade essenciais para o desenvolvimento deste trabalho e para o meu desenvolvimento como pesquisador. Aos meus colegas de turma pelo incentivo. Aos meus pais e irmos por nunca me deixarem desistir e sem os quais no teria chegado at aqui. A todos, os meus sinceros agradecimentos.

LISTA DE ILUSTRAESFigura 1 - Pirmide Minerao de Dados ................................................................................... 4 Figura 2 - reas Envolvidas na Minerao de Dados ................................................................ 6 Figura 3 - Minerao de Dados .................................................................................................. 6 Figura 4 - rvore de Deciso ..................................................................................................... 9 Figura 5 - Redes Neurais Artificiais ......................................................................................... 10 Figura 6 - Clusterizao ............................................................................................................ 11 Figura 7 - Fases KDD ............................................................................................................... 13 Figura 8 - Matriz Curricular do Curso de Sistemas de Informao.......................................... 19 Figura 9 WEKA Tela Inicial .............................................................................................. 28 Figura 10 WEKA Tela Explorer......................................................................................... 28 Figura 11 - WEKA - Arquivo ARFF Aberto ............................................................................ 29 Figura 12 - WEKA Tela de Classificao ............................................................................. 30 Figura 13 - WEKA - Escolha do Algortmo ............................................................................. 31 Figura 14 - WEKA - Execuo do Algortmo .......................................................................... 32 Figura 15 - Resultado WEKA .................................................................................................. 33 Figura 16 - Estrutura rvore Weka .......................................................................................... 34 Figura 17 - rvore WEKA ....................................................................................................... 35 Figura 18 - Pster Minerao de Dados: Conceitos e Aplicaes ............................................ 46

LISTA DE TABELASTabela 1 - tb_weka ................................................................................................................... 21 Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Concluso de Curso44

LISTA DE ABREVIATURAS E SIGLASSiglas UEG UnUCET DM KDD SGBD SQL ODBC OLAP FAPESP USP ICMC MIRVIsIM Descrio Universidade Estadual de Gois Unidade Universitria de Cincias Exatas e Tecnolgicas Data Mining Knowledge Discovery in Databases Sistema Gerenciador de Bancos de Dados Structure Query Language Open Data Base Connectivity On-Line Analytical Processing Fundao de Amparo Pesquiso do Estado de So Paulo Universidade de So Paulo Instituto de Cincias Matemticas e de Computao Sigla em ingls para Minerao, indexao, recuperao e visualizao de dados em sistemas de arquivamento de imagens mdicas SI JVM Sistemas de Informao Java Virtual Machine

RESUMOA quantidade e de dados gerados no mundo atualmente muito grande, at mesmo dentro das empresas esses dados chegam a formar grandes bases de dados. A velocidade com que a informao circula, principalmente na Internet, tambm muito grande. Apenas armazenar esses dados e utiliz-los em buscas simples no representa uma vantagem para as empresas. A Minerao de Dados surge ento como soluo para esse problema, possibilitando que sejam encontrados padres nos dados que possibilitem que sejam tomadas novas aes que favoream a empresa. O trabalho descrito nesse projeto visa produzir material terico necessrio para que sejam compreendidos os conceitos de Minerao de Dados, suas tcnicas e as vantagens que pode trazer para a organizao.

Palavras-chave: Minerao de Dados, KDD, dados, informao, conhecimento.

ABSTRACT

The amount of data generated and the world today is very large, even within companies that data come to form large databases. The quickness with which information circulates, especially on the Internet, is also very large. Only store data and use them in simple searches do not represent an advantage for companies. Data Mining then arises as a solution to this problem, allowing them to be found in the data standards that enable new actions are taken to promote the company. The work described in this project aims at producing theoretical material needed to be understood that the concepts of Data Mining, its techniques and the advantages it can bring to the organization.

Keywords: Data Mining, KDD, data, information, knowledge.

SUMRIOINTRODUO .......................................................................................................................... 1 CAPTULO 1 REFERENCIAL TERICO ............................................................................ 4 1.1 Minerao de Dados ......................................................................................................... 4 1.1.1 Histrico .................................................................................................................... 4 1.1.2 Definio ................................................................................................................... 5 1.1.3 Tarefas Desempenhadas ............................................................................................ 7 1.1.4 Tcnicas ..................................................................................................................... 8 1.2 KDD ............................................................................................................................... 12 1.2.1 Definio ................................................................................................................. 12 1.2.2 Fases do KDD.......................................................................................................... 13 1.3 APLICABILIDADE DA MINERAO DE DADOS .................................................. 15 1.3.1 Wal-Mart ................................................................................................................. 15 1.3.2 Vestibular PUC-RJ .................................................................................................. 15 1.3.3 Bank of America ...................................................................................................... 16 1.3.4 A.C. Milan ............................................................................................................... 16 1.3.5 FAPESP ................................................................................................................... 16 CAPTULO 2 RELAO ENTRE A MDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADMICO ............................................. 18 2.1 O Curso de Sistemas de Informao............................................................................... 18 2.2 Base de Dados ................................................................................................................ 20 2.3 Proposta .......................................................................................................................... 20 2.4 Etapas ............................................................................................................................. 21 2.4.1 Seleo dos Dados ................................................................................................... 21 2.4.2 Limpeza ................................................................................................................... 21 2.4.3. Transformao ........................................................................................................ 21 2.4.4 Minerao de Dados ................................................................................................ 24 2.4.4.1 O formato de arquivo ARFF ..................................................................... 24 2.4.4.2 Escolha do Algortmo ................................................................................ 27 2.4.4.3 Utilizando o WEKA .................................................................................. 27 2.4.5 Interpretao ............................................................................................................ 33 CONCLUSO / RECOMENDAES ................................................................................... 38 REFERNCIAS ....................................................................................................................... 40 APNDICE I CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSO DE CURSO .............................................................................................................................. 44 APNDICE II - PSTER APRESENTADO NO III SIMPSIO DE TECNOLOGIA DA INFORMAO E III SEMANA DE INICIAO CIENTFICA DO CURSO DE SISTEMAS DE INFORMAO UNUCET-UEG/2011 ......................................................... 46

1

INTRODUO

Atualmente, o volume de dados gerados em qualquer ambiente, seja ele corporativo, governamental, cientfico ou at mesmo na prpria Internet incrivelmente grande. A tendncia que esse volume de dados continue a crescer, principalmente pelo crescimento da utilizao de dispositivos mveis e da automao cada vez maior das atividades das empresas. As organizaes vm constantemente buscando formas de agregar valor aos seus negcios e alcanar diferenciais com relao aos seus concorrentes em um mercado que se mostra cada vez mais competitivo. Nesse contexto, tanto os dados gerados internamente pela organizao quanto os dados oriundos de fontes externas podem ajudar a promover essa vantagem competitiva que a organizao busca. Nesse cenrio, a Minerao de Dados pode representar um importante papel para a organizao. A Minerao de Dados busca encontrar padres ou tendncias dentro de uma coleo de dados. Assim sendo, a Minerao de Dados pode identificar nos dados da organizao padres que dificilmente seriam observados de outra maneira. A Minerao de Dados pode encontrar padres e tendncias na base de dados da organizao ajudando a identificar padres no comportamento dos clientes, tendncias de mercado, comportamento fraudulento e etc., informaes essas que permitem s organizaes a tomada de decises estratgicas que podem representar uma vantagem competitiva para a instituio. A Minerao de Dados encontra padres em bases de dados por meio da aplicao de algortmos, a escolha do algortmo depende do tipo dos dados que iro ser analisados e do resultado que se espera. Os dados tambm precisam ser trabalhados antes da aplicao dos algortmos. As diferentes tcnicas que podem ser aplicadas na Minerao de Dados sero descritas no decorrer deste trabalho. Mas a Minerao de Dados no pode ser tratada como um processo completo e isolado, na realidade, trata-se de uma etapa de um processo maior, o KDD (Knowledge Discovery In Databases, em portugus, Descoberta de Conhecimento em Bancos de Dados),

2 onde so executadas etapas antes e depois da Minerao de Dados para que possa ser extrada informao de interesse da organizao. A Minerao de Dados corresponde principal etapa do KDD, onde o algortmo escolhido aplicado na base de dados, mas existem etapas que devem ser executadas antes que o algortmo possa ser aplicado e essas etapas fazem parte do KDD. Os dados onde a minerao de dados ser aplicada precisam ser tratados para que o algortmo possa ser aplicado. Mesmo no sendo o alvo de estudo deste trabalho, a ligao existente entre Minerao de Dados e KDD no permite que seja tratado de um ser mencionar o outro. Assim, as etapas que compreendem o KDD tambm sero tratados durante o projeto mas sem que haja um aprofundamento muito grande. Para a demonstrao da Minerao de Dados ser utilizado o WEKA (Waikato Environment Knowledge Analysis, em portugus, Ambiente Waikato de Anlise de Conhecimento), software que comeou a ser desenvolvido em 1993 usando Java, na Universidade de Waikato na Nova Zelndia. O WEKA consiste em uma coleo de algortmos da rea de Inteligncia Artificial dedicada ao aprendizado de mquinas. A justificativa em cima da qual esse trabalho se baseia o fato de que toda organizao deseja agregar cada vez mais valor ao seu negcio e assim adquirir uma vantagem sobre a concorrncia, e que toda organizao, independente do porte, possui uma quantidade de dados razovel armazenados que podem ser explorados e transformados em informao valiosa para a empresa. O principal objetivo do trabalho fornecer uma material terico sobre Minerao de Dados, expondo das tcnicas utilizadas, as formas como os dados podem ser transformados e os tipos de resultados que podem ser obtidos. Para que o trabalho no fique apenas na parte terica e a aplicao da Minerao de Dados possa ser melhor observado, ser realizado um estudo de caso para que possam ser demonstrados todos os passos que compreendem a Minerao de Dados e que so necessrios para transformar dados em informao. Entre os passos que sero demonstrados no estudo de caso sero feitos passos do KDD, uma vez que a Minerao de Dados s compreende a aplicao dos algortmos e no os

3 passos que precedem a execuo dos algortmos, etapas que so feitas no KDD e que so de extrema importncia e que influenciam diretamente nos resultados da Minerao de Dados. Em nenhum momento deste trabalho ser dito que uma tcnica melhor ou mais eficiente que outra, visto que o objetivo no avaliar as tcnicas e sim expos quais as tcnicas disponveis e quais resultados podem ser obtidos com cada uma delas.

4

CAPTULO 1 REFERENCIAL TERICO

Neste captulo ser exposto a Minerao de Dados, as tcnicas de Minerao de Dados, o KDD e as tcnicas de KDD. As vantagens que a utilizao da Minerao de Dados pode proporcionar s organizaes tambm sero apresentadas nesse captulo. O objetivo deste fornecer uma base de conhecimento sobre o assunto que ser abordado durante todo o projeto, para que o objeto do estudo e os resultados da pesquisa possam ser comprendidos.

1.1 Minerao de DadosFigura 1 - Pirmide Minerao de Dados

Fonte: HALFEN, 2010

1.1.1 Histrico

O termo Minerao de Dados no novo, comeou a ser utilizado por volta de 1960, onde seu objetivo principal era a coleo de dados em computadores, feitos em fitas e discos fornecidos pela IBM e CDC. Esses dados eram armazenados para que posteriormente fosse possvel fazer a restrospectiva e a distribuio esttica dos dados.

5 Na dcada de 1980, com a aprimoramento das tecnologias de acesso dinmico aos dados, como os SGBDs (Sistema Gerenciador de Bancos de Dados), SQL (Structure Query Language, em portugus, Linguagem de Consulta Estruturada), ODBC (Open Data Base Connectivity, em portugus, Conectividade de Banco de Dados Livre) e bancos de dados relacionais, fornecidos principalmente por Oracle, Sybase, Infomix, IBM e Microsoft, a Minerao de Dados passou a ter como principal caracterstica a retrospectiva e a distribuio dinmica dos dados a nvel de registro. Com o surgimento do data warehousing e do suporte deciso, OLAP (On-Line Analytical Processing, ou em portugus, Processamento Analtico Online) e bancos de dados multidimensionais na dcada de 1990, tendo como principais fornecedores Pilot, Comshare, Arbor, Cognos e Microstrategy, possibilitaram uma nova evoluo para a Minerao de Dados que passou a permitir a retrospectiva e a distribuio dinmica dos dados em mltiplos nveis. Atualmente a Minerao de Dados utilizada comercialmente na tentativa de prever resultados futuros atravs da anlise dos dados, dispondo de algortmos avanados, computadores multiprocessados e banco de dados massivos, a Minerao de Dados tem como principal objetivo a prospectiva e a distribuio de informao ativa. Os principais fornecedores so Pilot, Lockheed, IBM e SGI.

1.1.2 Definio

Minerao de Dados o termo usado para generalizar um conjunto de tcnicas utilizadas para analisar e extrair informaes de bases de dados, encontrando padres nos dados que possam ser teis para a organizao. Praticamente no existe nenhuma rea de conhecimento em que as tcnicas de Minerao de Dados no possam ser aplicadas. A Minerao de Dados traz consigo uma srie de idias e tcnicas para uma grande variedade de campos. A diferena entre as reas de conhecimento est nos termos utilizados, mas todas usam diferentes tcnicas para chegar ao mesmo resultado, a informao.

6Figura 2 - reas Envolvidas na Minerao de Dados

Fonte: (VIANA)

Figura 3 - Minerao de Dados

Fonte: O autor, adaptada de (MARTIN).

O aumento das transaes comerciais por meio eletrnico, em especial as feitas pela Internet, possibilitou s empresas armazenarem em suas bases de dados registros contendo preciosos dados sobre seus clientes. Os produtos adquiridos, e at mesmo os que foram apenas consultados, aliados aos dados exigidos no momento do cadastro formam o perfil do cliente.

7 O conhecimento do perfil do cliente possibilita oferecer um servio mais personalizado. Os diversos sites de compra online se utilizam de tcnicas de Minerao de Dados, por exemplo, no momento do cadastro o cliente determina suas reas de interesse, a partir desse instante os emails enviados a esse cliente passam a conter apenas ofertas voltadas para suas reas de interesse. Outro exemplo acontece durante a prpria navegao no site, ao buscar um produto so mostradas sugestes de produtos que tambm foram adquiridos por compradores anteriores juntamente com o produto buscado. Mesmo dispondo de ferramentas para automatizar o processo de Minerao de Dados, a participao de um profissional indispensvel uma vez que algumas das tarefas devem ser feitas manualmente, como a seleo dos dados ou a criao das regras, podendo influenciar nos resultados obtidos.

1.1.3 Tarefas Desempenhadas

De acordo com a necessidade a Minerao de Dados pode realizar diferentes tarefas sobre os dados com a finalidade de melhor organiz-los. Associao: Consiste em determinar quais fatos ou objetos tendem a

ocorrer num mesmo evento ou nume mesma transao. Exemplo: quais produtos costumam ser adquiridos numa mesma compra, sistomas parecidos entre pacientes. Classificao: Consiste em construir um modelo que possa ser

aplicado a dados no classificados visando categorizar os objetos em classes. Exemplo: classificar pedidos de crdito; tratamento de pacientes. Predio/Previso: A predio usada para definir um provvel

valor para uma ou mais variveis. A previso utilizada quando se tem sries temporais (dados organizados cronologicamente). Exemplo: estimar o tempo de vida de um paciente; estimar a renda total de uma famlia; demanda de consumidores para um novo produto. Agrupamentos ou Clusterizao: um processo de partio, que

visa dividir uma populao em subgrupos mais homogneos entre si,

8 tornando a visualizao por parte do usurio mais simples e compreensvel. diferente da tarefa de classificao, pois no existem classes predefinidas, os objetos so agrupados de acordo com a similaridade. Exemplo: agrupar clientes por regio; agrupar clientes com comportamento de compra similar.

1.1.4 Tcnicas

No existe uma tcnica que resolva todos os problemas de Minerao de Dados. Existem diferentes tcnicas para diferentes propsitos, a escolha da tcnica a ser empregada est relacionada com o tipo de dado no que ser aplicada.

rvores de Deciso Um problema complexo dividido em problemas mais simples de serem resolvidos. um modelo preditivo, visualizado em forma de rvore. Cada ramo da rvore visto como um problema mais simples enquanto cada n visto como um subconjunto dos dados que resolvem esse problema.

9Figura 4 - rvore de Deciso

Fonte: O autor, adaptada de (CARACIOLO, 2009). No exemplo acima, mostrada uma rvore de deciso propcia a uma ao de marketing, baseando-se na idade, na renda e no estado civil do cliente determinado se ele compraria ou no o produto. A partir de uma rvore de deciso possvel derivar regras que podem aplicadas aos dados. No caso do exemplo da Figura 4, possvel derivar a seguinte regra: caso o cliente tenha idade entre 18 e 35 anos ele no compra o produto, por outro lado, se ele tiver idade entre 36 e 55 anos e for solteiro ele comprar o produto.

Regras de Induo A tcnica de regras de induo altamente automatizada e, possivelmente, a melhor tcnica de Minerao de Dados para expor todas as possibilidades de padres existentes em um banco de dados (BERSON et. al., 1999). A regra de induo consiste em uma expresso condicional do tipo: se ento

10 Aps a formao das regras, constri-se uma tabela com o percentual de preciso (frequncia com que a regra est correta) e cobertura (com que frequncia pode ser usada). Quanto maior o percentual, melhor a regra.

Redes Neurais Artificiais As redes neurais artificiais so tcnicas que procuram reproduzir de maneira simplificada as conexes do sitema biolgico neural. Estruturalmente, consistem em um conjunto de elementos interconectados, chamados neurnios, organizados em camadas que aprendem pela modificao de suas conexes. Tipicamente, tem-se uma camada de entrada ligada a uma ou mais camadas intermedirias que so ligadas a uma camada de sada (BERRY e LINOFF, 1997). A partir de um conjunto de treinamento, procura-se aprender padres gerais que possam ser aplicados classificao ou predio de dados. A funo de cada neurnio avaliar valores de entrada, calcular o total para valores de entrada combinados, comparar com um total limiar e determinar o valor de sada.

Figura 5 - Redes Neurais Artificiais

Fonte: (CARVALHO)

11 Uma rede neural formada por uma ou mais camadas de entrada, n camadas intermedirias(dependendo da complexidade do problema e ser resolvido) e apenas uma camada de sada. A funo bsica de cada neurnio avaliar os dados de entrada e calcular um valor para sada. As operaes realizadas por cada neurnio so bastante simples, mas a conexo entre os neurnios capaz de criar procedimentos complexos.

Anlise de Regresso Busca explicar uma ou vrias variveis de interesse em funo de outras. Depois de ser construdo o modelo (que uma equao matemtica), ele pode ser usado para realizar predies ou calcular probabilidades. Possui quatro passos: seleo das variveis, diagnstico para verificar se o modelo adequado, aplicao de medidas remediadoras para quando as condies do modelo no so satisfeitas e validao do modelo.

Clusterizao Tambm chamada de segmentao dos dados ou anlise de agrupamentos, consistem em agrupar dados em subconjuntos, esses subconjuntos so chamados clusters. Os objetos dentro de um mesmo cluster so mais semelhantes entre si do que qualquer objeto dentro de outro cluster. O algortmo de clusterizao identifica as relaes entre os dados e gera uma srie de clusters baseando-se nelas.

Figura 6 - Clusterizao

Fonte: Microsoft

12

1.2 KDDFalar sobre Minerao de Dados sem mencionar o KDD impossvel, uma vez que esto intimamente ligados, a Minerao de Dados no um processo isolado e a principal fase do KDD. A diferena entre os dois bem sensvel, sendo tratados em alguns trabalhos como se fossem o mesmo processo, quando na verdade o KDD um processo de transformao dos dados em informao e a Minerao de Dados consiste em encontrar padres dentro de uma base de dados.

1.2.1 Definio

Segundo FAYYAD et. al., KDD o processo no trivial, de extrao de informaes implcitas, previamente desconhecidas e potencialmente teis, a partir dos dados armazenados em um banco de dados. Resumindo, KDD o processo de extrao de informaes de bases de dados que possam ser teis aos usurios e que so mais difceis de obter sem que os dados armazenados sejam trabalhados. O KDD compreende todo o ciclo que o dado percorre at virar conhecimento ou informao. O processo interativo e iterativo. Interativo porque o usurio pode intervir e controlar o curso das atividades, iterativo por ser uma sequncia finita de operaes onde o resultado de cada uma dependente do resultado das que a precedem.

13Figura 7 - Fases KDD

Fonte: O autor, adaptada de (FAYYAD et al. (1996)).

1.2.2 Fases do KDD

Seleo Esta a primeira fase do processo. escolho do conjunto de dados, pertencentes a um domnio, que faro partes da anlise. A escolha dos dados fica a cargo de um especialista do domnio. A complexidade do processo se d pelo fato de os dados poderem vir de fontes diferentes e em formatos diferentes. Possui impacto significante sobre a qualidade dos resultados do processo, uma vez que toda a anlise ser feita sobre os dados selecionados nesse passo.

Pr-Processamento e Limpeza Nesta fase so realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possveis dados discrepantes ao domnio (outliners). O auxlio do especialista do domnio fundamental. So tambm utilizados mtodos de reduo ou transformao para diminuir o nmero de variveis envolvidas no processo, visando melhorar o desempenho do algortmo de anlise.

Dados Ausentes (Missing Values): Um problema comum nessa fase

a ausncia de valores para determinadas variveis, ou seja, registros com dados incompletos, seja por falha na seleo dos dados ou reviso. O tratamento destes casos se faz necessrio para que os resultados da

14 Minerao sejam confiveis. Existem trs alternativas de soluo: imputao, fazer a previso dos dados ausentes e complet-los individualmente; substituir o valor faltante pela mdia aritmtica da varivel; excluir o registro.

Dados Discrepantes (Outliners): So dados que possuem valores

extremos, atpicos ou com caractersticas muito distintas dos demais registros. Normalmente so descartados da amostra, porm s deve ocorrer quando o dado representar erro de observao de medida ou problema similar. O dado deve ser analisado cuidadosamente antes da excluso, pois embora seja atpico, pode representar um valor verdadeiro, apontando um comportamento no usual, uma tendncia ou ao fraudulenta.

Dados Derivados: Variveis de uma populao podem apresentar

relacionamentos entre si. Se houver a necessidade de dados que no estejam disponveis, possivel obt-los da transformao ou combinao de outros.

Transformao Os dados necessitam ser armazenados e formatados adequadamente para que os algortmos possam ser aplicados. como encontrar computadores rodando diferentes SOs (Sistemas Operacionas) e diferentes SGBDs. Estes dados devem ser agrupados em um nico repositrio.

Minerao de Dados Explicaes detalhadas deste item se encontram no item 3.1 deste captulo, uma vez que este o assunto principal deste trabalho.

Interpretao/Avaliao Esta fase deve ser feita em conjunto com um ou mais especialistas no assunto. O conhecimento adquirido atravs da Minerao de Dados deve ser interpretado e avaliado para que o resultado final seja obtido.

15 Caso o resultado no seja satisfatrio, o processo pode retornar a qualquer uma das fases anteriores, o mais comum modificar o conjunto de dados inicial ou trocar o algortmo de Minerao de Dados.

1.3 APLICABILIDADE DA MINERAO DE DADOS

Neste captulo sero apresentados alguns exemplos reais da aplicao das tcnicas de Minerao de Dados em diferentes organizaes e em diferentes reas de conhecimento para explicitando como a Minerao de Dados pode favorecer os negcios da empresa.

1.3.1 Wal-MartEste um dos mais famosos exemplos de Minerao de Dados. A rede americana de hipermercados Wal-Mart identificou que a venda de fraldas e cervejas aumentava nas noites de sexta-feira e traou um perfil dos clientes que possuiam esse comportamento. Homens entre 25 e 30 anos, casados, que estavam voltando do trabalho na sexta-feira passavam no supermercado para comprar fraldas e acabavam comprando cerveja tambm. A ao tomada pela empresa foi relocar os produtos de modo que fraldas e cervejas passassem a ficar mais prximas e o resultado disso foi um aumento de 30% nas vendas.

1.3.2 Vestibular PUC-RJ

A PUC-RJ utilizou a Minerao de Dados para analisar os dados de seu vestibular e encontrou a seguinte regra: se o candidato for do sexo feminino, trabalha e conseguiu boas notas no vestibular ele no efetuava a matrcula A justificativa encontrada para esse padro de comportamento dos candidatos que se uma mulher em idade de vestibular trabalha por necessidade e nesse caso provavelmente fez inscrio em universidades pblicas tambm. Se a candidata obteve boas

16 notas tambm provvel que tenho sido aprovada na instituio pblica para a qual se inscreveu e portanto no efetuar sua matrcula na PUC-RJ. Com algumas excesses, como: candidatas que residiam prximo unidade, pessoas mais velhas, de alto poder executivo, que voltaram a estudar por outro motivo que no seja obter uma profisso, etc., essa regra obedecida pela maioria dos candidatos.

1.3.3 Bank of America

O Bank of America utilizou tcnicas de Minerao de Dados para selecionar entre seus clientes aqueles que apresentavam o menor risco de inadimplncia em emprstimos. A partir dos resultados encontrados enviou cartas oferencendo limites de crdito aos seus clientes que possuiam filhos com idade entre 18 e 21 anos e que precisariam de dinheiro para comprar uma casa, o primeiro carro ou financiar a faculdade dos filhos. Como resultado dessa ao o banco teve um lucro de U$ 30 milhes em 3 anos.

1.3.4 A.C. Milan

O clube de futebol italiano, Milan, iniciou em 2002 um projeto piloto que utilizava software para prever leses em jogadores, uma vez que os jogadores representa o maior investimento do clube poder evitar tais leses ou reduzir a gravidade delas e, consequentemente, tempo de recuperao dos atletas economizaria milhes de dlares aos cofres do clube. Atravs de um software desenvolvido pela Computer Associates, foram coletados dados nos treinamentos da equipe durante um perodo de tempo, permitindo que fossem feitas previses mdicas acumuladas de cada jogador possibilitando um melhor monitoramento do risco de leses dos atletas.

1.3.5 FAPESP

17 Um projeto de pesquisa apoiado pela FAPESP gerou o prottipo de uma ferramenta de diagnsticos por imagem. O MIRVIsIM foi desenvolvido por um grupo coordenado pela professora Agma Juci Machado Traina, do ICMC da USP, em So Carlos. comum o mdico se lembrar de ter visto uma imagem parecida mas no se lembrar do diagnstico do caso e analisar casos anteriores levaria muito tempo. A funo do software compara a imagem a ser analisada pelo radiologista com um banco de dados de outras j laudadas. Cor, posio e formato dos elementos retratados so utilizados como elementos a serem comparados. O especialista ento recebe uma srie de sugestes de diagnsticos levantados atravs da comparao das imagens.

18

CAPTULO 2 RELAO ENTRE A MDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADMICONeste captulo ser apresentado um exemplo da utilizao da Minerao de Dados para obteno de informao a partir de uma base de dados, descrevendos os passos utilizados e o resultado final.

2.1 O Curso de Sistemas de InformaoO curso de Bacharelado em Sistemas de Informao comeou a ser ofertado na UnUCET em fevereiro de 2002, em substituio ao curso de Tecnologia em Processamento de Dados, uma vez que o curso de Tecnologia em Processamento de Dados, criado em 1985, necessitava de algumas alteraes e atualizaes e o Ministrio da Educao j havia feito orientaes para que os cursos de natureza tcnica fossem substitudos por outros da rea de Computao e Informtica. O objetivo do curso formar profissionais para o desenvolvimento, implantao e gesto de sistemas de informao visando atender as demandas das organizaes e da sociedade, utilizando as modernas tcnicas da Tecnologia da Informao. A matriz curricular original do curso, de 2002, foi alterada em 2009, mas para este estudo ainda ser utilizada a matriz curricular de 2002, visto que os dados utilizados compreendem o perodo de 2002 a 2007 e a nova matriz curricular s comeou a entrar em vigar em 2009 e somente na 1 srie do curso.

19Figura 8 - Matriz Curricular do Curso de Sistemas de Informao

Da acordo com a matriz curricular de 2002 e que ser utilizada neste estudo, o curso possui um tempo de integralizao mnima de 4 e mximo de 7 anos, com um total de 3.280 horas/aula, divididas no perodo noturno e com aulas aos sbados pela manh nos 3 primeiros anos. A forma de ingresso anual e so oferecidas um total de 40 vagas. Alm das horas/aula que so cumpridas na universidade, o aluno tambm deve cumprir um total de 150 horas de atividades complementares, que podem incluir palestras, seminrios, cursos, etc., como atividades para complementar e expandir os temas abordados em sala de aula e 360 horas de estgio supervisionado como forma de observar e aprender como o dia a dia do profissional e como o contedo aprendido em sala pode ser aplicado na realidade.

20 A mdia necessria para que o aluno seja considerado aprovado em qualquer disciplina 7 e o aluno tambm precisa ter o mnimo de 75% de presena na disciplina. A mdia final de cada disciplina obtida da mdia aritmrica das notas obtidas nos 4 bimestres que compem o ano letivo. Mdia = (nota 1 bimestre + nota 2 bimestre + nota 3 bimestre + nota 4 bimestre) / 4 Caso a mdia obtida pelo aluno na disciplina seja maior ou igual a 7, ele est aprovado na disciplina. Se o aluno obtiver mdia inferior a 3 na disciplina ele est reprovado. Caso a nota seja inferior a 7 e maior ou igual a 3, o aluno faz mais uma prova para obteno de uma nova mdia. Mdia final = (mdia obtida + nota prova final) / 2 Caso a mdia obtida na prova final seja superior a 5 o alunos est aprovado, caso contrrio o aluno est reprovado na disciplina. Em todos os casos o aluno precisa, obrigatoriamente, ter frequentado um mnimo de 75% das horas/aula ministradas, caso contrrio estar reprovado independentemente da mdia que obtiver na disciplina.

2.2 Base de DadosA base de dados a ser utilizada corresponde ao dados dos alunos do curso de Sistemas de Informao da UEG dos anos de 2002 a 2011.

2.3 Proposta

As propostas deste estudo de caso so estabelecer uma relao entre a mdia final obtidas nas disciplinas que compem a grade curricular do curso e o desempenho acadmico do aluno no decorrer do curso. A proposta pretende descobrir se as notas obtidas pelos alunos em certas disciplinas influencia no desempenho do aluno no decorrer do curso, ou seja, se esses alunos conseguiram concluir o curso no tempo mnimo exigido (4 anos).

21

2.4 Etapas

2.4.1 Seleo dos Dados

Primeiro foi feita a seleo dos dados que sero trabalhados na Minerao de Dados. Neste momento foi escolhida a base de dados de alunos do curso de SI dos anos de 2002 a 2007. A escolha da base de dados foi aleatria, j o perodo foi escolhido levando-se em conta as turmas que a primeira turma que ingressou (2002) e a ltima turma que se formou na universidade (2007), considerando-se que o curso possui 4 anos de durao mnima. A base de dados se encontra no formato ACCDB do Microsoft Access 2007.

2.4.2 Limpeza

Nesta etapa foi feita a limpeza da base de dados, retirando registros que estejam com dados ausentes.

2.4.3. Transformao

A base de dados precisa ser trabalhada antes que o algortmo de minerao de dados possa ser aplicado. Neste momento, foram retirados dados que no so interessentes para a minerao de dados, como, endereo, cidade, estado, telefone, etc., e deixando apenas os dados que seriam relevantes ao estudo: notas das disciplinas, se o aluno completou o curso pleno (4 anos, sem reprovao em nenhuma disciplina). Os dados da base de dados tambm precisaram ser formatados para que no houvesse inconsistncia nos dados. A base de dados em que ser aplicada o algortmo de Minerao de Dados ficou com a seguinte estrutura:

22 Tabela 1 - tb_weka Campo D1 D2 Numrcico Numrico Tipo Descrio Mdia final da disciplina de lgebra Mdia final da disciplina de Anlise de Sistemas D3 Numrico Mdia final da disciplina de Arquitetura de Computadores D4 Numrico Mdia final da disciplina de Banco de Dados D5 Numrico Mdia final da disciplina de Clculo Diferencial e Integral D6 Numrico Mdia final da disciplina de Conceitos de Inteligncia Artificial D7 Numrico Mdia final da e disciplina Economia de para

Contabilidade Computao D8 Numrico

Mdia final da disciplina de Direito e tica em Informtica

D9

Numrico

Mdia final da disciplina de Eletricidade e Lgica Digital

D10

Numrico

Mdia

final

da

disciplina

de

Empreendedorismo em Informtica D11 Numrico Mdia final da disciplina de Engenharia de Software D12 Numrico Mdia final da disciplina de Ingls Instrumental D13 Numrico Mdia final da disciplina de Introduo Computao

23 D14 Numrico Mdia final da disciplina de Linguagem e Tcnicas de Programao D15 Numrico Mdia final da disciplina de Metodologia da Pesquisa Cientfica D16 Numrico Mdia final da disciplina de Novas Aplicaes Em Sistemas de Informao D17 Numrico Mdia final da disciplina de O

Profissional da Informtica e a Sociedade D18 Numrico Mdia final da disciplina de Organizao, Sistemas e Mtodos D19 Numrico Mdia final da disciplina de Planejamento e Gesto de Sistemas de Informao D20 Numrico Mdia final da disciplina de Princpios de Sistemas de Informao e Teoria da Computao D21 Numrico Mdia final da disciplina de

Probabilidade e Estatstica D22 Numrico Mdia final da disciplina de Programao I D23 Numrico Mdia final da disciplina de Programao II D24 Numrico Mdia final da disciplina de Projeto de Graduao I D25 Numrico Mdia final da disciplina de Projeto de Graduao II D26 Numrico Mdia final da disciplina de Redes de Computadores Pleno Texto, S/N Indica se o aluno concluiu a universidade

24 no tempo mnimo(4 anos, sem reprovao) Fonte: O autor

2.4.4 Minerao de Dados

Como descrito anteriormente, para a demonstrao do algortmo de Minerao de Dados ser utilizado o WEKA, mas o WEKA no capaz de aplicar o algortmo diretamente sobre uma base de dados do Microsoft Access, como o caso da base que estamos utilizando. Portanto a tabela tb_weka precisa ser exportada para um arquivo no formato ARFF para que assim possa ser feita a leitura atravs do WEKA e o algortmo seja aplicado.

2.4.4.1 O formato de arquivo ARFFO formato de arquivo ARFF (Attribute-Relation File Format), desenvolvido pela Machine Learning Project no Departamento de Cincia da Computao da Universidade de Waikato (mesma desenvolvedora do WEKA) para uso no WEKA, um arquivo de texto ASCII que descreve uma lista de instncias compartilhando um conjunto de atributos. Por padro, todo arquivo ARFF dividido em 2 partes distintas, o cabealho e os dados:

Cabealho: o cabealho do arquivo ARFF contm o nome da relao e a declarao dos atributos.o

O nome da relao definido na primeira linha do arquivo atravs da declarao @relation

o

A declarao de atributos deve ser individualmente para cada atributo atravs da declarao @attribute e define o nome e tipo do atributo.

Os tipos de dados suportados pelo WEKA so 4, numrico, nominal, string e data:

Numrico: os atributos podem ser numros reais ou inteiros

25

Nominal:

so

definidos

atravs

de

uma

especificao nominal dos valores que o atributo pode assumir. Exemplo: {YES,NO}, {Y,N}, {A,B}

String: so atributos que contm texto. Data: so atributos que representam uma data, utilizado o padro ISO-8601 de formato de data e hora combinadas em uma string yyyy-MMdd'T'HH:mm:ss

Os dados do arquivo so definidos atravs da declarao @data, onde cada instncia representada em uma nica linha e os atributos so separados por vrgula. Os valores que estiverem ausentes sero representados por um nico ponto de interrogao (?).

Todos os valores de atributos que possuirem espaos devem estar entre aspas duplas () e para colocar comentrios no arquivos utiliza-se a caracter percentagem (%) no incio da linha. Assim sendo, o arquivo ARFF gerado ficou da seguinte forma: - Declarao da relao: @relation alunos - Declarao dos atributos: @attribute D1 real @attribute D2 real @attribute D3 real @attribute D4 real @attribute D5 real @attribute D6 real @attribute D7 real @attribute D8 real @attribute D9 real

26 @attribute D10 real @attribute D11 real @attribute D12 real @attribute D13 real @attribute D14 real @attribute D15 real @attribute D16 real @attribute D17 real @attribute D18 real @attribute D19 real @attribute D20 real @attribute D21 real @attribute D22 real @attribute D23 real @attribute D24 real @attribute D25 real @attribute D26 real @attribute Pleno {S,N} - Dados @data 6.6,6.7,5.3,6.1,7.25,7.3,7.4,7.1,7,7.5,5.1,7,7.7,7.7,7.2,8.1,7.2,7.9,7.5,9,7,8.15,7.2,7 .2,8.1,7.7,S ... Este o exemplo de uma das vrias linhas que a declarao @data contm.

27

2.4.4.2 Escolha do AlgortmoPara a anlise do arquivo ARFF foi escolhido o mtodo de classificao e o algortmo J48, em decorrncia do escopo do trabalho e dos valores que compem o arquivo ARFF. O mtodo de classificao foi escolhido por atender as propostas feitas no incio deste captulo, ou seja, com o mtodo de classificao pode-se prever se as notas em determinadas disciplinas influenciam podem dizer se o aluno concluir o curso pleno ou no. O algortmo J48 foi escolhido devido ao tipo dos dados que sero analisados. Segue abaixo uma explicao do funcionamento do algortmo O algortmo J48 constroi uma rvore de deciso. A forma de construo da rvore usa a abordagem top-down, em que o atibuto mais generalizado considerado a raiz da rvore. A seguir, o prximo n da rvore ser o segundo atributo mais generalizado, e assim por diante at que seja encontrado o n folha, que representa o atributo alvo.

2.4.4.3 Utilizando o WEKAA ltima verso do WEKA pode ser obtida em

http://www.cs.waikato.ac.nz/ml/weka/, lembrando que por ter sido desenvolvido em Java, o WEKA precisa da JVM (Java Virtual Machine) instalada no computador onde ser instalado. Atualmente o WEKA utiliza a JVM 1.6 e para evitar problemas durante a execuo do programa, sugiro que seja escolhido o download do instalador que j venha com a JVM.

28Figura 9 WEKA Tela Inicial

Fonte: O autor

Escolha a opo Explorer, e ser apresentada a seguinte tela:

Figura 10 WEKA Tela Explorer

29 Fonte: O autor

Selecione a opo Open file... e navegue at a pasta onde se encontra o arquivo ARFF que deseja analisar. Aps o arquivo ARFF ser aberto, algumas informaes do arquivo j podero ser observadas, como a quantidade de instncias, o nmero de atributos, e informaes sobre os prprios atributos individualmente como tipo de dado e os valores que esses atributos assumem.

Figura 11 - WEKA - Arquivo ARFF Aberto

Fonte: O autor

A seguir clique na guia Classify e escolha o algortmo que ser aplicado, neste caso o algortmo escolhido foi o J48 que se encontra na guia trees.

30Figura 12 - WEKA Tela de Classificao

Fonte: O autor

31Figura 13 - WEKA - Escolha do Algortmo

Fonte: O autor

O passo seguinte escolher a opo Use training set em Test options, escolher qual o atributo ser o n folha da rvore e clicar em Start para que o WEKA comea a anlise do arquivo ARFF e crie a rvore.

32Figura 14 - WEKA - Execuo do Algortmo

Fonte: O autor

33

2.4.5 Interpretao

Figura 15 - Resultado WEKA

Aps a execuo do algortmo J48 no WEKA foi possvel obter as seguintes informaes que so importantes para a proposta que foi feita no incio do captulo: Nmero total de instncias: 133; Nmero de instncias classificadas corretamente: 98 ou,

aproximadamente, 74%; Nmero de instncias classificadas incorretamente: 35 ou,

aproximadamente, 26%;

34 O fator de preciso para classe pleno (S) foi de 0,775 ou 77,5%; e o fator de preciso para a classe no-pleno (N) foi re 0,679 ou 67,9% A Matriz de Confuso (Confusion Matrix): o Apresentou 94 instncias classificadas corretamente, sendo 62 classificadas como S (aluno pleno) e 36 como N (aluno com reprovao em alguma disciplina); o Apresentou 35 instncias classificadas incorretamente, sendo 17 falsos positivos para S e 18 falsos positivos para N, ou seja, 17 instncias foram classificadas com S quando deveriam ser N e 18 instncias foram classificadas com N quando deveriam ser S;

Figura 16 - Estrutura rvore Weka

35

Figura 17 - rvore WEKA

A rvore gerada aps a execuo do algortmo possui 11 folhas, tamanho 21 e teve como raiz a disciplina D2 (Anlise de Sistemas). Ao fazer a anlise da rvore gerada, pudemos que os alunos que tiveram nota menor ou igual a 5,09 no concluram o curso plenos, onde 25 alunos foram classificados corretamente como N e 1 foi classificado incorretamente. Em D7 (Contabilidade e Economia para Computao), os alunos que obtiveram nota menor ou igual a 6,7 e obtiveram nota menor ou igual a 8,35 na disciplina D8 (Direito e tica em Informtica) no concluram o curso plenos (11 alunos), enquanto os que obtiveram nota menor ou igual a 6,7 em D7 e nota maior que 8,35 em D8 concluiram o curso pleno, onde 3 alunos foram classificados corretamente como S e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3 (Arquitetura de Computadores) e maior que 8,85 em D9 (Eletricidade e Lgica Digital) no concluram o curso plenos (6 alunos); enquanto que os alunos que obtiveram nota maior ou igual a 8,85 em D9 e maior ou igual a 7,8 em D4 (Banco de Dados) concluram o curso plenos (4 alunos) e os que tiveram nota menor que 7,8 em D4 no concluram o curso plenos (2 alunos). Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e menor ou igual a 7,7 em D16 (Novas Aplicaes em Sistemas de Informao) no concluram o curso pleno (4 alunos), enquanto os

36 que tiveram nota maior que 7,7 em D16 concluram o curso pleno, onde 5 alunos foram classificados corretamente como S e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8 concluram o curso plenos (50 alunos), os que tiveram nota menor ou igual a 8,4 em D8 e menor ou igual a que 9,23 em D3 tambm concluram o curso plenos, onde 20 foram classificados como S e 2 foram classificados incorretamente; enquanto os que obtiveram nota maior que 9,23 em D3 no concluram o curso plenos. Resumindo, de acordo com a execuo do algortmo, para que o alunos conclua o curso pleno ele deve atender umas das seguintes regras: Nota maior que 5,09 em D2, menor ou igual a 6,7 em D7 e maior que 8,35 em D8; Nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3, menor ou igual a 8,85 em D9 e menor ou igual a 7,8 em D4; Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e maior que 7,7 em D16, neste caso houve 1 falso positivo; Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8; Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4, menor ou igual a 8,4 em D8 e menor ou igual a 9,23 em D3, neste caso houveram 2 falsos positivos. Houveram tambm 1 falsos negativos em:

Nota menor ou igual a 5,09 em D2 apresentou 1 falso negativo;

Com a aplicao da Minerao de Dados foi possvel identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluir o curso pleno ou no, enquanto as notas obtidas nas outras disciplinas no influem. Nenhuma das disciplinas influencia diretamente se o alunos concluir o curso pleno ou no, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno no concluir o curso

37 pleno, neste caso se ele obtiver uma nota menor ou igual a 5,09 e mesmo assim ainda apresenta um falso negativo.

38

CONCLUSO / RECOMENDAESO volume de dados gerados dentro das organizaes atualmente muito grande e a tendncia que continue a crescer, tendo em vista a automao cada vez maior das tarefas dentro das empresas. Esses dados podem representar uma vantagem competitiva para a empresa, desde que eles sejam analisados de forma correta e transformados em informao valiosa para a empresa. A minerao de dados uma ferramenta que a empresa pode utilizar para adquirir informaes que podem ser de grande utilidade na tomada de decises tticas e estratgicas possibilitando uma vantagem sobre seus concorrentes e agregar valor sobre seus negcios. As tcnicas da Minerao de Dados podem ser aplicadas a diferentes tipos de dados, resultando em diferentes resultados, portanto cabe ao responsvel escolher qual tcnicas se aplica melhor aos dados que ele possui e quais os resultados esperados para que assim a tcnicas que melhor resolva essas questes possa ser aplicada e os resultados sejam satisfatrios. A aplicao do KDD imprescindvel para o sucesso da Minerao de Dados, uma vez que a Minerao de Dados uma etapa do KDD e altamente dependente das etapas que a precedem e que so fundamentais e influenciam diretamente o resultado da Minerao de Dados. Durante a aplicao das tcnicas de Minerao de Dados na base utilizada no estudo, foi possvel perceber como a Minerao de Dados, atravs de cada uma de suas etapas, vai transformando uma coleo de dados em informao til. Com a aplicao da Minerao de Dados foi possvel identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluir o curso pleno ou no, enquanto as notas obtidas nas outras disciplinas no influem. Nenhuma das disciplinas influencia diretamente se o alunos concluir o curso pleno ou no, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno no concluir o curso pleno. Um grande problema encontrado durante o desenvolvimento do trabalho foi na utilizao do software WEKA no momento da aplicao do algortmo no arquivo ARFF que

39 havia sido gerado, fazendo com que o resultado da execuo do algortmo no correspondesse ao resultado esperado, foram necessrios inmeros testes e alteraes nos tipos dados e na quantidade de atributos para que o problema fosse resolvido. Como sugesto para os prximos trabalhos sobre esse tema, recomendado um estudo mais aprofundado sobre o software WEKA e uma abrangncia maior dos diferentes algortmos de minerao de dados e seus diferentes resultados.

40

REFERNCIAS

AMO, Sandra de. Tcnicas de Minerao de Dados. Universidade Federal de Uberlndia, Faculdade de Computao, 2004. Disponvel em:

http://www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf. Acesso em: 25 mar. 2011.

Attribute-Relation

File

Format

(ARFF).

2008.

Disponvel

em:

http://www.cs.waikato.ac.nz/ml/weka/arff.html. Acesso em: 20 set. 2011.

BOZZA, Daniel; KONO, Frank; TAVARES, Claudio. Descoberta de Conhecimento Aplicado a Dados Eleitorais. Revista Gesto e Conhecimento / Faculdade de Cincias Sociais Aplicadas do Paran e Faculdade de Cincia e Tecnologia do Paran. Curitiba: Faculdades Facet, 2007. 94 pgs. Disponvel em:

http://gc.facet.br/artigos/resumo.php?artigo=34. Acesso em: 20 set. 2011.

CARACIOLO, Marcel Pinheiro. [Artigo] Introduo a rvores de deciso para a classificao e Minerao de Dados. 2009. Disponvel em:

http://aimotion.blogspot.com/2009/04/artigo-introducao-arvores-de-decisao.html. Acesso em: 4 jul. 2011.

CARVALHO, Andr Ponce de Leon F. de. Redes Neurais Artificiais. Disponvel em: http://www.icmc.usp.br/~andre/research/neural/. Acesso em: 16 mai. 2011.

CHIU, Susan; TAVELLA, Domingo. Data Mining and Marketing Intelligence for Optimal Marketing Returns. Elsevier; 2008. 295 p.

41 CRTES, Srgio da Costa; LIFSCHITZ, Srgio; PORCARO, Rosa Maria. Minerao de Dados Funcionalidades, Tcnicas e Abordagens. PUC-Rio, 2002. Disponvel em: http://www.dbd.puc-rio.br/depto_informatica/02_10_cortes.pdf. Acesso em: 30 mar. 2011.

CPBR10

Software

Livre.

Oficina:

Data

Mining

WEKA.

Disponvel

em:

http://www.youtube.com/watch?v=sDD8nsZ1fQo. Acesso em: 29 dez. 2010.

HALFEN,

Idel.

Minerao

de

Dados.

2010.

Disponvel

em:

http://halfen-

mktsport.blogspot.com/2010/11/mineracao-de-dados.html. Acesso em: 19 mai. 2011.

MARTIN,

James

R.

What

is

Data

Mining?.

Disponvel

em:

http://maaw.info/DataMining.htm. Acesso em: 20 mai. 2011.

MICROSOFT.

Algoritmo

Microsoft

Clustering.

Disponvel

em:

http://technet.microsoft.com/pt-br/library/ms174879%28SQL.100%29.aspx. Acesso em: 15 mai. 2011.

NETO, Ary Fagundes Bressane; SILVA, Flvio Soares Corra da. Oficina Data Mining com WEKA. 2010. Disponvel em: http://www.slideshare.net/campuspartybrasil/campus-

party2010. Acesso em: 29 dez. 2010.

O que Minerao de Dados?. GSI Grupo de Sistemas Inteligentes Minerao de Dados, DIN Departamento de Informtica, UEM Universidade Estadual de Maring, Maring, 1998. Disponvel em: http://www.din.uem.br/ia/mineracao/introducao/index.html. Acesso em: 15 mai. 2011.

REYNOL, Fbio. Minerao de dados para diagnsticos mdicos. 2010. Disponvel em: http://agencia.fapesp.br/11928. Acesso em: 12 jul. 2011.

42

SBARAI, Rafael. A Minerao de Dados em Redes Sociais. 2010. Disponvel em: http://derepente.com.br/2010/01/18/a-mineracao-de-dados-em-redes-sociais/. Acesso em: 18 mar. 2011.

PRASS, Fernando Sarturi. KDD: Processo de Descoberta em Banco de Dados. Grupo de Interesse em Engenharia de Software, Florianpolis, 2004.

SILVA, Marcelino Pereira dos Santos. Minerao de Dados Conceitos, Aplicaes e Experimentos com WEKA. Disponvel em:

http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acesso em: 30 dez. 2010.

SOLIEMAN, Osama K. Data Mining in Sports: A Research Overview. MIS Masters Project. 2006. Disponvel em:

http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCMQFjAB&url=http%3A%2 F%2Fai.arizona.edu%2Fmis480%2Fsyllabus%2F6_OsamaDM_in_Sports.pdf&rct=j&q=minera%C3%A7%C3%A3o%20de%20dados%20nba&ei=zqoc TvDICcmtgQe32rDfCQ&usg=AFQjCNFZ_uG9HZxlMWoHhNWReVShd9zgZQ&sig2=Lwl 4fWhwGZqrmlX_m_wKHQ&cad=rja. Acesso em: 12 jul. 2011.

VIANA, Reinaldo. Minerao de Dados: Introduo e Aplicaes. Disponvel em: http://www.sqlmagazine.com.br/Resumo_SQL10.asp. Acesso em: 20 mai. 2011.

WIKIPEDIA.

Extrao

de

Conhecimento.

Disponvel

em:

http://pt.wikipedia.org/wiki/Extra%C3%A7%C3%A3o_de_conhecimento. Acesso em: 31 jan. 2011.

43 WIKIPEDIA. Minerao de Dados. Disponvel em:

http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados. Acesso em: 30 dez. 2010.

ZANUSSO,

Maria

Bernadete.

Data

Mining.

DCT,

UFMS.

Disponvel

em:

http://www.dct.ufms.br/~mzanusso/Data_Mining.htm. Acesso em: 18 mar. 2011.

44

APNDICE I CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSO DE CURSOTabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Concluso de Curso 2010

AtividadesIncio das atividades relacionadas ao Projeto Tomada de decises: Escolha do tema Pesquisa Bibliogrfica Elaborao do problema da pesquisa Levantamento de recursos disponveis para elaborao do pr-projeto Elaborao dos tpicos principais do pr-projeto Reviso dos tpicos principais do pr-projeto Confeco do pr-projeto Entrega do pr-projeto ao Orientador Elaborao dos tpicos principais da Monografia Possveis correes do prprojeto Entrega do pr-projeto ao Coordenador de PGII Confeco da redao da Monografia Entrega da Monografia parcial ao Orientador Possveis correes na Monografia parcial Entrega da Monografia parcial ao Coordenador de PGII Apresentao da Monografia parcial Comisso de Avaliao Continuao da elaborao da Monografia Entrega da Monografia final ao Orientador Possveis correes na Monografia Confeco Pster Entrega do Pster Exposio Pster Entrega do trabalho final ao

Jan Fev Mar Abr1 2 1 2 1 2 1 2

Mai1 2

Jun1 2

Jul1 2

Ago1 2

Set1 2

Out1 2

Nov1 2

Dez1 2

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X

45Coordenador de PGII Data de apresentao Comisso de Avaliao Entrega das correes ao Coordenador de PGII Entrega da verso final

X X X

46

APNDICE II - PSTER APRESENTADO NO III SIMPSIO DE TECNOLOGIA DA INFORMAO E III SEMANA DE INICIAO CIENTFICA DO CURSO DE SISTEMAS DE INFORMAO UNUCET-UEG/2011Figura 18 - Pster Minerao de Dados: Conceitos e Aplicaes