151
0 UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO UMA ONTOLOGIA PARA INSERIR CONHECIMENTO HUMANO EM FERRAMENTAS DE MINERAÇÃO DE DADOS EDMAR AUGUSTO YOKOME ORIENTADORA: PROFA. DRA. FLÁVIA LINHALIS ARANTES PIRACICABA, SP 2011

mineração - 08112011_144252_2011_edmaraugutoyokome (1)

Embed Size (px)

Citation preview

  • 0

    UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CINCIAS EXATAS E DA NATUREZA

    MESTRADO EM CINCIA DA COMPUTAO

    UMA ONTOLOGIA PARA INSERIR CONHECIMENTO HUMANO EM FERRAMENTAS DE MINERAO DE DADOS

    EDMAR AUGUSTO YOKOME ORIENTADORA: PROFA. DRA. FLVIA LINHALIS ARANTES

    PIRACICABA, SP 2011

  • 1

    UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CINCIAS EXATAS E DA NATUREZA

    MESTRADO EM CINCIA DA COMPUTAO

    UMA ONTOLOGIA PARA INSERIR CONHECIMENTO HUMANO EM FERRAMENTAS DE MINERAO DE DADOS

    EDMAR AUGUSTO YOKOME ORIENTADORA: PROFA. DRA. FLVIA LINHALIS ARANTES

    Dissertao apresentada ao Mestrado em Cincia da Computao, da Faculdade de Cincias Exatas e da Natureza, da Universidade Metodista de Piracicaba UNIMEP, como parte dos requisitos para obteno do Ttulo de Mestre em Cincia da Computao.

    PIRACICABA, SP 2011

    I

  • 2

    UMA ONTOLOGIA PARA INSERIR CONHECIMENTO HUMANO EM FERRAMENTAS DE MINERAO DE DADOS

    Autor: Edmar Augusto Yokome Orientadora: Profa. Dra. Flvia Linhalis Arantes

    Dissertao de Mestrado apresentada em 01 de junho de 2011, Banca Examinadora constituda dos Professores:

    ________________________________________________

    Profa. Dra. Flvia Linhalis Arantes UNICAMP

    ________________________________________________

    Prof. Dr. Ivan Rizzo Guilherme UNESP

    ________________________________________________

    Profa. Dra. Marina Teresa Pires Vieira UNIMEP

    II

  • 3

    DEDICATRIA

    Gostaria de dedicar este trabalho primeiramente a Deus, a fora maior, que me deu a vida, sade e fora para cursar o mestrado e me abenoou na grande quantidade de viagens que fiz ao longo desses dois anos.

    Aos meus pais e irmos que sempre estiveram presentes em todos os momentos.

    Cincia da Computao que me fez refletir o tanto que esta rea complexa e diversificada.

    Aos meus amigos que de certa forma fiquei afastado neste perodo que me dediquei ao mestrado.

    s minhas sobrinhas (Myallyn, Mayumi e Ana Heloisa), em especial a Aninha que foi meu escape do stress.

    s Artes Marciais e aos esportes que tanto gosto, mas que por uma causa maior fiquei afastado.

    Aos ex-coordenadores (Eleonilda, Rogrio e Vivian) da UEG UnU Santa Helena de Gois no perodo de 2007 a 2008, no qual fiz parte dessa equipe. Trabalhamos e divertimos muito, foi um bom perodo que no votar mais.

    III

  • 4

    AGRADECIMENTOS Primeiramente gostaria de agradecer professora Dra Flvia Linhalis

    Arantes pela orientao, que aceitou ser a minha orientadora em um perodo complicado, me introduziu uma nova rea da Cincia da Computao e mesmo depois de deixar de ser professora do programa de mestrado, continuou a me orientar, sempre me apoiando e incentivando, gostaria de registrar minha eterna gratido.

    Gostaria de agradecer ao programa de mestrado em Cincia da Computao da UNIMEP por ter sido um dos escolhidos. Aos professores (Dr Plnio, Dra Marina, Dr Victor, Dr Luiz Eduardo, Dra Ana Estela e Dra Ceclia), pelas suas aulas super proveitosas (foi de longe a melhor coisa que fiz para minha vida profissional, em especial as professoras Marina e Ana Estela que contribuiram muito com o crescimento deste trabalho ao participarem da minha banca de qualificao), aos colegas de mestrado (Rodrigo, Etianne, Jos Edielson, Carlos, Joo Paulo, Ku Hai Chiang, Mrcio, Isaias e Regina) pelos momentos difceis e alegres; s funcionrias (Rosa e Dulce) que sempre estavam disposio para nos atender. E aluna de iniciao cientifica (Mirela) da UNIMEP pela grande ajuda que me deu na ferramenta Kira.

    s diversas instituies de ensino por onde passei e a seus funcionrios, professores e colegas, que foram responsveis pela minha formao, entre as instituies esto: Colgio Modelo (Ensino Fundamental), Colgio Vital de Oliveira (Ginsio), Escola Paroquial de 10 e 20 Grau (Colegial), UEG (Curso Superior) e Faculdade FAR (Ps-Graduao Latu Sensu), onde tambm fiz grandes amizades.

    Gostaria de fazer um agradecimento especial instituio UEG - UnU de Santa Helena que, alm de permitir que eu fizesse um curso superior, me deu oportunidade de trabalho. E seus funcionrios, professores e alunos, em especial a professora Dila (Coordenadora do Curso) que aceitou a ser coordenadora para que eu pudesse cursar o mestrado e sempre me apoiou e incentivou. As ex-Diretoras Ereni (em especial, por ter me chamado para fazer parte do grupo de funcionrios da UEG) e Maria Lcia e o atual Diretor prof Dr Luis Carlos pelo incentivo. E por fim ao corpo docente e discente do curso de Sistemas de Informao que entenderam minha constante ausncia ao longo desses anos.

    E por fim ao meu ex-orientador de especializao o prof Msc. Fabian e a profa Msc. Dulcinia que fizeram a carta de recomendao para o mestrado.

    IV

  • 5

    O valor das coisas no est no tempo em que elas duram,

    mas na intensidade com que acontecem.

    Por isso existem momentos inesquecveis,

    coisas inexplicveis e pessoas incomparveis".

    (Fernando Pessoa)

    Faa da pedra de tropeo, um degrau de subida. Transforme cada fato negativo, em uma experincia positiva.

    Bruce Lee

    Quando algum est querendo aprender, o conselho de uma pessoa experiente vale mais do que anis de ouro ou jias de ouro puro. Pv

    25:12

    V

  • 6

    RESUMO

    Ontologias vm sendo utilizadas amplamente em pesquisas na rea da Cincia da Computao, inclusive na minerao de dados. Este trabalho apresenta o desenvolvimento de uma ontologia para o domnio de minerao de dados, cujo objetivo fornecer uma terminologia comum que pode ser compartilhada e processvel por ferramentas de minerao de dados. O principal diferencial da ontologia desenvolvida identificar pontos onde o conhecimento humano se torna necessrio, onde a partir desta caracterstica possvel utilizar metodologias orientadas ao domnio, como a D3M, e com a utilizao desta metodologia possvel obter uma minerao mais interativa entre a mquina e o minerador de dados. Como produto gerado a partir desta ontologia proposto uma arquitetura para ferramentas de minerao de dados, levando em considerao a metodologia D3M, onde a partir desta possvel desenvolver ferramentas de minerao de dados orientadas ao domnio.

    Palavras-Chaves: Ontologia de Domnio, Minerao de Dados, Metodologias para Minerao de Dados, Conhecimento de Domnio, Ferramentas de Minerao de Dados.

    VI

  • 7

    ABSTRACT

    Ontologies have widely been used in Computer Science research, including data mining. This works presents the development of a domain ontology for data mining, which aims to provide a common terminology that can be shared and computed by data mining tools. The main feature of the ontology is to identify where human knowledge is required. With this feature it is possible to use domain-oriented methodologies, such as D3M, to obtain a more interactive data mining between the machine and the data miner expert. As product generated from this ontology we proposed an architecture for data mining tools. The architecture takes into account the D3M methodology, aiming the developement of domain-oriented data mining tools.

    Key Words: Domain Ontology, Data Mining, Data Mining Methodologies, Domain Knowledge, Data Mining Tools.

    VII

  • 8

    SUMRIO

    LISTAS DE FIGURAS.............................................................................................. XI LISTA DE QUADROS...............................................................................................XIII

    LISTA DE SIGLAS E ABREVIATURAS..................................................................XIV

    1 INTRODUO .......................................................................................................16 1.1 CONTEXTUALIZAO ........................................................................................................ 16 1.2 MOTIVAO..................................................................................................................... 18 1.3 OBJETIVOS ...................................................................................................................... 18 1.4 METODOLOGIA................................................................................................................. 19 1.5 TRABALHOS RELACIONADOS ............................................................................................ 20 1.6 ORGANIZAO DO TRABALHO ........................................................................................... 23

    2 MINERAO DE DADOS......................................................................................25 2.1 CONSIDERAES INICIAIS................................................................................................. 25 2.2 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ...................................................... 25 2.2.1 Arquitetura Tpica de um Sistema de MD.........................................................28 2.2.2 Tarefas da Minerao de Dados .....................................................................29 2.2.3 Tcnicas de Minerao de Dados ....................................................................31 2.2.4 Algoritmos para minerao de dados...............................................................37 2.3 METODOLOGIAS PARA MINERAO DE DADOS ................................................................... 39 2.3.1 CRISP-DM........................................................................................................39 2.3.1.1 O Modelo de Referncia CRISP-DM............................................................ 41 2.3.2 Minerao de Dados Orientada ao Domnio (DM) ..........................................44 2.4 FERRAMENTAS PARA MINERAO ..................................................................................... 46 2.4.1 A Ferramenta WEKA........................................................................................47 2.4.2 Ferramenta de Minerao de Dados Kira.........................................................49 2.5 CONSIDERAES FINAIS .................................................................................................. 53

    3 ONTOLOGIAS .......................................................................................................54

    3.1 CONSIDERAES INICIAIS................................................................................................. 54 3.2 DEFINIES .................................................................................................................... 54 3.3 CLASSIFICAO DAS ONTOLOGIAS .................................................................................... 55 3.4 METODOLOGIAS PARA DESENVOLVIMENTO DE ONTOLOGIAS............................................... 57

    VIII

  • 9

    3.5 LINGUAGENS PARA REPRESENTAO DE ONTOLOGIAS ....................................................... 60 3.6 FERRAMENTAS PARA DESENVOLVIMENTO E VISUALIZAO DE ONTOLOGIAS ....................... 66 3.7 CONSIDERAES FINAIS .................................................................................................. 70

    4 DESENVOLVIMENTO DE UMA ONTOLOGIA PARA O DOMNIO DA MINERAO DE DADOS.........................................................................................72 4.1 CONSIDERAES INICIAIS................................................................................................. 72 4.2 DOCUMENTAO DO CICLO DE VIDA DA ONTOLOGIA META-DM.......................................... 72 4.2.1 Especificao ...................................................................................................73 4.2.2 Aquisio de conhecimento..............................................................................74 4.2.3 Conceituao ...................................................................................................74 4.2.4 Integrao ........................................................................................................83 4.2.5 Implementao.................................................................................................83 4.2.6 Avaliao..........................................................................................................87 4.2.7 Documentao .................................................................................................90 4.3 CONSIDERAES FINAIS .................................................................................................. 90

    5 DEFINIO DE UMA ARQUITETURA PARA FERRAMENTAS DE MINERAO DE DADOS COM BASE NA ONTOLOGIA META-DM E NA METODOLOGIA D3M .91

    5.1 CONSIDERAES INICIAIS................................................................................................. 91 5.2 IDENTIFICAO DAS TAREFAS DA METODOLOGIA D3M NA ONTOLOGIA META-DM.................. 91 5.2.1 Dados...............................................................................................................92 5.2.2 Entendimento do Problema..............................................................................93 5.2.3 Preparao dos Dados Para a Minerao de Dados .......................................95 5.2.4 Tarefa de Minerao de dados.........................................................................96 5.2.5 Padres............................................................................................................98 5.3 UMA ARQUITETURA PARA FERRAMENTAS DE MINERAO DE DADOS BASEADA NA METODOLOGIA D3M E NA ONTOLOGIA META-DM ..................................................................... 99 5.3.1 Interface com o usurio ..................................................................................101 5.3.2 Processo de Descoberta de Conhecimento ...................................................101 5.3.3 Repositrio de Informao .............................................................................103 5.4 CENRIO DE EXECUO DE UM PROJETO DE MINERAO DE DADOS.................................. 104 5.4.1 Execuo do cenrio no entendimento do negcio........................................105 5.4.2 Execuo do cenrio no entendimento dos dados.........................................107 5.4.3 Execuo do cenrio na preparao dos dados ............................................109

    IX

  • 10

    5.4.4 Execuo do cenrio na definio e aplicao da tarefa de minerao de dados ......................................................................................................................112 5.4.5 Execuo do cenrio na avaliao dos padres gerados ..............................116 5.4.6 Execuo do cenrio na aplicao dos padres gerados ..............................118 5.5 CONSIDERAES FINAIS ................................................................................................ 118

    6 CONCLUSES ....................................................................................................119 6.1 INTRODUO ................................................................................................................. 119 6.2 CONTRIBUIES ............................................................................................................ 120 6.3 TRABALHOS FUTUROS.................................................................................................... 121

    REFERNCIAS.......................................................................................................122

    ANEXO 1..................................................................................................................126

    APNDICE 1 ...........................................................................................................128 APNDICE 2 ...........................................................................................................138

    X

  • 11

    LISTA DE FIGURAS

    FIGURA 1: ONTOLOGIA DE SHARMA E OSEI-BRYSON.......................................... 21 FIGURA 2: PARTE DA ONTOLOGIA DE PINTO E SANTOS...................................... 23 FIGURA 3: PROCESSO DE DESCOBERTA DO CONHECIMENTO (KDD) ............... 26 FIGURA 4: ARQUITETURA TPICA DE UM SISTEMA DE MD................................... 28 FIGURA 5: AS TAREFAS CENTRAIS DA MD............................................................. 30 FIGURA 6: RVORE DE DECISO............................................................................ 32 FIGURA 7: PROCESSO DE INDUO DE REGRAS DE ASSOCIAO................... 33 FIGURA 8: REDE NEURAL ARTIFICIAL .................................................................... 34 FIGURA 9: MODO DE OPERAO DOS ALGORITMOS GENTICOS..................... 35 FIGURA 10: PROCESSO DE IDENTIFICAO DOS SEGMENTOS......................... 36 FIGURA 11: QUATROS NVEIS HIERRQUICOS DA METODOLOGIA CRISP-DM . 40 FIGURA 12: FASE DO MODELO DE REFERNCIA DO CRISP-DM..........................42 FIGURA 13: MODELO DO PROCESSO DDID-PD .....................................................46 FIGURA 14: TELA INICIAL DA FERRAMENTA WEKA...............................................47 FIGURA 15: AMBIENTE DE DESENVOLVIMENTO WEKA........................................48 FIGURA 16: ARQUITETURA DA FERRAMENTA KIRA..............................................50 FIGURA 17: TELA DA FERRAMENTA KIRA ..............................................................51 FIGURA 18: IDENTIFICAO DA TAREFA DE MINERAO ...................................52 FIGURA 19: CLASSIFICAO DE ONTOLOGIAS.....................................................56 FIGURA 20: GRAFO REPRESENTANDO UMA TRIPLA............................................62 FIGURA 21: HIERARQUIAS DE ESPECIALIZAO/GENERALIZAO .................. 63 FIGURA 22: AMBIENTE DE DESENVOLVIMENTO DO PROTG 4.1.0.................. 69 FIGURA 23: DIAGRAMA DA ONTOLOGIA NO SEU MAIS ALTO NVEL.................... 75 FIGURA 24: CLASSE DATA ....................................................................................... 78 FIGURA 25: ENTENDIMENTO DO PROBLEMA ........................................................ 79 FIGURA 26: PROCESSAMENTO DOS DADOS......................................................... 81 FIGURA 27: PS-PROCESSAMENTO ...................................................................... 82 FIGURA 28: UTILIZAO DO PELLET DENTRO DO PROTG.............................. 87 FIGURA 29: ELEMENTOS VERIFICADOS E NO VERIFICADOS............................ 88 FIGURA 30: RESULTADO DA VERIFICAO DO PELLET....................................... 88 FIGURA 31: EXEMPLO DE INSTANCIAO............................................................. 89

    XI

  • 12

    FIGURA 32: DADOS DA ONTOLOGIA META-DM COM A METODOLOGIA D3M ...... 92 FIGURA 33: ENTENDIMENTO DO PROBLEMA COM A METODOLOGIA D3M......... 94 FIGURA 34: PREPARAO DOS DADOS COM A METODOLOGIA D3M ................. 95 FIGURA 35: DEFINIO DA TAREFA DA MD COM A METODOLOGIA D3M............ 97 FIGURA 36: RESULTADOS DA MD COM A METODOLOGIA D3M ........................... 98 FIGURA 37: ARQUITETURA PARA FERRAMENTAS DE MINERAO DE DADOS....... ............................................................................................................100 FIGURA 38: EXECUO DO CENRIO - ENTENDIMENTO DO NEGCIO ............. 106 FIGURA 39: EXECUO DO CENRIO - ENTENDIMENTO DOS DADOS............... 108 FIGURA 40: EXECUO DO CENRIO - PREPARAO DOS DADOS................... 111 FIGURA 41: EXECUO DO CENRIO - DEFINIO E APLICAO DA TAREFA DE MINERAO DE DADOS...................................................................................115 FIGURA 42: EXECUO DO CENRIO - AVALIAO DOS PADRES GERADOS.... ........................................................................................................... 117 FIGURA 43: MODELAGEM DA BASE DE DADOS DO CONGRESSO....................... 126 FIGURA 44: INTEGRAO DA BASE DE DADOS PARA A MD................................. 127

    XII

  • 13

    LISTA DE QUADROS

    QUADRO 1: DESCRIO DAS FASES DO PROCESSO DE KDD...............................27 QUADRO 2: DESCRIO DAS TAREFAS DE MINERAO DE DADOS....................31 QUADRO 3: ALGUNS ALGORITMOS PARA MINERAO DE DADOS ......................37 QUADRO 4: DESCRIO DAS FASES DA METODOLOGIA CRISP-DM. ...................40 QUADRO 5: TAREFAS EXECUTAS EM CADA ETAPA DO CRISP-DM .......................43 QUADRO 6: DESCRIO DOS TIPOS DE ONTOLOGIAS, GUARINO .......................56 QUADRO 7: ETAPAS DA METODOLOGIA METHONTOLOGY ...................................58 QUADRO 8: LINGUAGENS PARA REPRESENTAR ONTOLOGIAS . ..........................60 QUADRO 9: CLASSES ESSENCIAIS DO RDF-S .........................................................64 QUADRO 10: RELACIONAMENTOS .........................................................................64 QUADRO 11: CARACTERSTICAS DAS FERRAMENTAS PARA A CRIAO DE ONTOLOGIAS............................................................................................................67 QUADRO 12: DESCRIO DOS COMPONENTES DA ONTOLOGIA OWL ................69 QUADRO 13: DICIONRIO DE DADOS DAS CLASSES..............................................76 QUADRO 14: DICIONRIO DE DADOS DOS RELACIONAMENTOS..........................77 QUADRO 15: DICIONRIO DE DADOS DOS ATRIBUTOS .........................................78

    XIII

  • 14

    LISTA DE ABREVIATURAS E SIGLAS

    CRISP-DM: Cross-Industry Standard Process for Data Mining Processo Padro Intersetorial para Minerao de Dados

    D3M: Domain Driven Data Mining - Minerao de Dados Orientada ao Domnio

    DAML: DARPA Agent Markup Language Linguagem de Marcao para Agentes da DARPA

    DDID-PD: Domain-driven in-depth pattern discovery Descoberta de Padres em Profundidade Orientada ao Domnio

    DM: Data Mining - Minerao de Dados

    DMO: Data Mining Ontology Ontologia de Minerao de Dados

    KDD: Knowledge Discovery in Databases - Descoberta do Conhecimento em Bases de Dados

    KIF: Knowledge Interchange Format Formato de Troca de Conhecimento

    OCML: Operational Conceptual Modeling Language Linguagem de Modelagem Conceitual Operacional

    ODE: Ontology Design Environment Ambiente para Projeto de Ontologias

    OIL: Ontology Interchange Language Linguagem para Intercmbio de Ontologias

    OKBC: Open Knowledge Based Connectivity Conhecimento Aberto Baseado em Conectividade

    OWL: Ontology Web Language Linguagem de Ontologias para Web

    RDF: Resource Descriptor Framework Framework para Descrio de Recursos

    XIV

  • 15

    SWRL: Semantic Web Rule Language Linguagem de Regras para Web Semntica

    WEKA: Waikato Environment For Knowledge Analysis - Ambiente Waikato para Anlise do Conhecimento

    XML: eXtensible Markup Language - Linguagem de Marcao Extensvel

    XV

  • 16

    1 INTRODUO

    1.1 Contextualizao

    A computao nos ltimos anos evoluiu de maneira surpreendente. Uma das consequncias dessa evoluo foi que as bases de dados cresceram de forma inimaginvel e ficaram tambm mais heterogneas (por exemplo: banco de dados multimdia, de texto, temporais e outros (HAN & KAMBER, 2006).

    Com essa diversidade e aumento de volume nas bases de dados, ficou praticamente impossvel fazer uma anlise de forma manual nos dados. Devido a essa questo, surgiu um novo ramo na cincia da computao chamado minerao de dados (DM, do ingls Data Mining), cujo propsito encontrar padres interessantes em bases de dados.

    Essa necessidade de encontrar padres interessantes nas bases de dados uma tentativa de descobrir algo que possa auxiliar o analista de dados em uma tomada de deciso. Por exemplo: quais produtos podem ser vendidos em conjunto em um supermercado, dado o histrico de vendas realizadas? Se o processo de minerao de dados conseguir chegar a um determinado padro, poder ajudar a definir uma estratgia de marketing para o supermercado.

    A tarefa de descoberta de conhecimento em base de dados conhecida como KDD (Knowledge Discovery in Databases). A minerao de dados uma das etapas que faz parte do processo de KDD. Esse processo consiste de uma srie de passos de transformao, pr-processamento e ps-processamento dos resultados da minerao de dados (TAN et al., 2009).

    Na tentativa de disciplinar o processo de KDD, surgiram algumas metodologias, dentre elas a CRISP-DM (Cross-Industry Standard Process For Data Mining). De acordo com essa metodologia, o ciclo de vida de um projeto de minerao de dados dividido em seis fases: entendimento do negcio, entendimento dos dados, preparao dos dados, modelagem, avaliao e desenvolvimento (CHAPMAN et al., 2000). CRISP-DM uma metodologia bem ampla e detalhada, e usada para fornecer orientaes em relao a como as vrias fases de um projeto de minerao de dados podem ser executadas (SHARMA & OSEI-BRYSON, 2008).

  • 17

    Ao seguir CRISP-DM ou outras metodologias orientadas aos dados, constatado que o processo de KDD realizado de forma sistematizada. Isto , o usurio escolhe, prepara e entra com os dados, adota um algoritmo de minerao de dados e define como ser a visualizao dos padres gerados, porm no h uma interferncia durante o processo de aplicao das tcnicas de minerao de dados, onde so feitas somente nas fases anteriores e posteriores a esta aplicao (CAO & ZHANG, 2006).

    Metodologias orientadas aos dados como CRISP-DM tratam o processo de minerao como algo isolado e baseado na tentativa e erro. Nessas metodologias, questes relacionadas ao objetivo do negcio e a aplicao de tcnicas de minerao de dados tm pouco apoio durante seu processo, sendo tratados de maneira isolada. Como resultado, o conhecimento descoberto com a minerao pode no ser interessante para o negcio (ou problema) em questo.

    Metodologias orientadas ao domnio do negcio, como D3M, vem, aos poucos, sendo utilizadas na minerao de dados. O objetivo da metodologia D3M diminuir a distncia entre a minerao realizada na academia e na indstria, onde so retratadas partes do mundo real. Na academia so elaborados estudos sistemticos com o objetivo de aumentar a eficincia dos resultados produzidos com a minerao de dados e na indstria necessrio que os resultados gerados forneam resultados satisfatrios que possam ser aplicados (CAO & ZHANG, 2006). Esta metodologia se baseia em elementos chaves como restries de contexto; integrao do conhecimento do domnio do negcio; cooperao entre humanos e mquinas durante o processo de minerao; e refinamento iterativo dos resultados.

    Para concretizar um projeto de minerao de dados h vrias ferramentas, entre elas esto: Kira (Mendes, 2009), WEKA1, Bramining2, dentre outras. Estas ferramentas permitem fazer uma anlise de forma automtica, algo que se fosse feito manualmente tornaria um projeto de minerao de dados invivel. Porm, por mais que estas ferramentas sejam eficientes, o conhecimento humano exigido em vrias fases do processo de minerao de dados.

    Para possibilitar a utilizao de conhecimento humano ou conhecimento de domnio, preciso representar formalmente a terminologia do domnio. O conceito de ontologias se adequa bem a esse propsito.

    1 www.cs.waikato.ac.nz. Acesso: 09 jun. 2011.

    2 www.graal-corp.com.br. Acesso: 09 jun. 2011.

  • 18

    Uma ontologia comumente utilizada como uma estrutura que representa o conhecimento sobre uma determinada rea (ou domnio) por meio de conceitos relevantes e relacionamentos entre eles (FALBO et al., 1998). Em outras palavras, as ontologias podem representar a semntica necessria para descrever determinado domnio de aplicao. Portanto, as ontologias podem ser peas fundamentais para viabilizar metodologias de minerao de dados orientadas ao domnio, como D3M, e inserir conhecimento humano durante o processo de minerao de dados.

    1.2 Motivao

    Apesar da existncia de metodologias e ferramentas para auxiliar na tarefa de descoberta de informao, esse processo no simples, pois h vrias etapas a serem seguidas, e muitas das vezes so encontradas barreiras difceis de serem solucionadas, como, por exemplo, a melhor forma de fazer a limpeza de dados, que tarefa de minerao de dados utilizar, como analisar os resultados produzidos, entre outros. Essas barreiras se tornam ainda maiores e mais evidentes diante da necessidade de se inserir conhecimento de domnio no processo de minerao.

    A motivao deste trabalho aliar ontologias ao processo de minerao de dados para guiar o processo de minerao de dados, onde considerado as fases do KDD e tambm a semntica do domnio do problema. Com isso, pretende-se ajudar a inserir conhecimento humano no processo de minerao de dados realizado por ferramentas de minerao.

    1.3 Objetivos

    O objetivo deste trabalho criar uma ontologia para o domnio de minerao de dados que ir guiar o minerador de dados durante o processo de KDD em ferramentas de minerao de dados. A ontologia dever servir de base para uma arquitetura para ferramentas de minerao de dados onde levado em considerao a metodologia DM.

  • 19

    Os resultados e contribuies esperadas com o desenvolvimento desse trabalho so:

    Desenvolver uma ontologia de domnio para minerao de dados, chamada daqui por diante de Meta-DM, cujo objetivo guiar o processo de descoberta do conhecimento nas diversas etapas desse processo;

    Identificar as etapas onde o conhecimento humano se torna necessrio e inserir tarefas da metodologia DM, cujo objetivo uma minerao de dados mais interativa; e

    Propor uma arquitetura para ferramentas de minerao de dados, com base na ontologia desenvolvida e na metodologia D3M.

    A arquitetura baseada em ontologias e na metodologia D3M vem contribuir com o estado da arte na rea de semntica em minerao de dados no sentido de inserir conhecimento humano e de domnio durante o processo de minerao de dados realizado em ferramentas de minerao.

    1.4 Metodologia

    Para o desenvolvimento deste trabalho foram realizadas as seguintes tarefas:

    Estudo das principais etapas do processo de KDD e da metodologia CRISP-DM;

    Realizao de minerao de dados em ferramentas desse domnio;

    Classificao das tarefas essenciais na minerao de dados que devem fazer parte da ontologia Meta-DM;

    Utilizao de metodologias para construo de ontologias, como Noy e McGuiness e METHONTOLOGY para o desenvolvimento da ontologia;

    Implementao da ontologia proposta em uma ferramenta de desenvolvimento de ontologias Protg;

  • 20

    Verificao e avaliao da ontologia por meio da mquina de inferncia Pellet e instanciao da ontologia;

    Identificao dos pontos onde o conhecimento humano se torna necessrio na ontologia;

    Estudo e identificao das tarefas da metodologia DM; Proposta de uma arquitetura para ferramentas de minerao

    de dados, baseado na ontologia Meta-DM e na metodologia DM.

    1.5 Trabalhos Relacionados

    Para o desenvolvimento da ontologia Meta-DM foram pesquisados outros trabalhos existentes na literatura, que tratam do desenvolvimento de ontologias para o domnio da minerao de dados. Uma das ontologias encontradas foi parcialmente utilizada na elaborao da ontologia proposta. A seguir apresentada uma breve descrio desses trabalhos e tambm feito um comparativo com a proposta da ontologia Meta-DM.

    Com a ontologia de Sharma e Osei-Bryson (2008) representada a fase de entendimento do ngcio, uma das etapas da metodologia CRISP-DM (Chapman et al., 2000). De acordo com anlise feita nesta ontologia, os autores fizeram o levantamento de questes relacionadas ao entendimento do negcio cujo objetivo ajudar o minerador no entendimento do negcio. Diferente da ontologia proposta por Sharma e Osei-Bryson (2008), a Meta-DM tem como objetivo representar todas as etapas de um projeto de minerao de dados. A Figura 1 apresenta o diagrama da ontologia de Sharma e Osei-Bryson (2008).

  • 21

    Figura 1: ONTOLOGIA DE SHARMA E OSEI-BRYSON Fonte: Sharma e Osei-Bryson (2008)

    Sharma e Osei-Bryson (2008) identificam que a fase de entendimento do negcio composta por 67 fases, a Figura 1 apresenta uma viso parcial da ontologia de Sharma e Osei-Bryson. Esta uma ontologia interessante para restringir o contexto do domnio do problema. Ela novamente mencionada no Captulo 5, onde h mais discusso sobre o assunto.

    A DM Ontology, desenvolvida por Zheng e Li (2008), uma ontologia que contempla a minerao de dados aplicada ao negcio de marketing para uma empresa de financiamento, isto , essa ontologia foi desenvolvida para um problema especfico de minerao de dados. O propsito da ontologia Meta-DM contemplar as etapas da minerao de dados como um todo, sem se voltar a um problema de minerao em particular. Entretanto, outras ontologias podem ser utilizadas juntamente com a Meta-DM para prover conhecimento de domnio necessrio para resolver determinado problema de minerao de dados.

  • 22

    A ontologia DMO proposta por Brezany, Janciak e Tjoa (2008) foi desenvolvida com o intuito de guiar um projeto de minerao de dados em grade. Seu maior objetivo realizar a minerao de dados utilizando servios semnticos espalhados pela web. Para isso, utiliza a ontologia OWL-S para descrever servios web semnticos. A ontologia utiliza os conceitos das fases do KDD, entretanto tem objetivos diferentes da ontologia Meta-DM. A ontologia DMO descreve servios semnticos com OWL-S, enquanto a ontologia Meta-DM tem o objetivo de guiar o processo de minerao de dados em uma ferramenta de minerao, sem considerar a existncia de servios.

    A ontologia OntoDM de Panov et al. (2008) tem como objetivo criar um conjunto de definies de termos para o domnio de minerao de dados, como, por exemplo, tipo de dados, conjunto de dados, tarefas de minerao de dados, algoritmos de minerao de dados, dentre outros. Desse modo, projetos de desenvolvimento de ontologias para esse domnio podem utilizar suas definies, onde evitado ambiguidades na interpretao de alguma definio do domnio. O objetivo de servir como terminologia comum para o domnio de minerao de dados tambm contemplado na Meta-DM, entretanto, a OntoDM no representa, formalmente, a necessidade de conhecimento humano no processo de KDD, caracterstica essencial para a utilizao da metodologia D3M, abordada neste trabalho.

    A ontologia de Pinto e Santos (2009) utiliza alguns conceitos da ontologia DMO de Brezany, Janciak e Tjoa (2008) e foi desenvolvida com o intuito de contemplar exclusivamente as fases do KDD seguindo a metodologia METHONTOLOGY de Fernandez-Lopez et al. (1997). O trabalho de Pinto e Santos foi o que mais se assemelhou com a ontologia proposta neste trabalho, tanto que alguns conceitos dessa ontologia foram utilizados na Meta-DM. Entretanto, a ontologia Meta-DM leva tambm em considerao a metodologia CRISP-DM (Chapman et al., 2000) e tem o objetivo de ser uma ontologia para ferramentas de minerao de dados, onde so identificados os momentos onde o conhecimento humano se faz necessrio, com o intuito utilizar metodologias orientadas ao domnio como a D3M, com o objetivo de buscar resultados mais significativos em um projeto de minerao de dados. A Figura 2 apresenta uma ilustrao parcial da ontologia de Pinto e Santos (2009).

  • 23

    ModelingAlgorithm

    Algorithm

    Parameter

    Structure

    Type

    Resources

    Data

    Algorithm

    Type

    Source

    Information

    Type

    is-a

    is-a

    is-a

    is-a

    hasData

    is-a

    is-a

    is-a

    hasAlgorithm

    Figura 2: PARTE DA ONTOLOGIA DE PINTO E SANTOS Fonte: Pinto e Santos

    1.6 Organizao do Trabalho

    Esta monografia est estruturada da seguinte forma: O Captulo 2 apresenta uma reviso bibliogrfica sobre

    descoberta de conhecimento em bases de dados (KDD do ingls Knowledge Discovery in Databases), algumas metodologias para o desenvolvimento de um projeto de minerao de dados e algumas ferramentas para auxiliar esse processo.

    O Captulo 3 faz um estudo bibliogrfico do tema ontologias, onde so descritos alguns pontos que foram essenciais para desenvolver este trabalho.

    O Captulo 4 sobre o desenvolvimento da ontologia Meta-DM, onde feito uma descrio detalhada do ciclo de vida utilizado para o desenvolvimento da ontologia;

    O Captulo 5 faz a descrio da proposta de uma arquitetura para ferramentas de minerao de dados, onde levado em considerao a ontologia Meta-DM e as tarefas da metodologia

  • 24

    DM. Neste captulo apresentado ainda um cenrio de uso da arquitetura, que procura ilustrar sua utilizao para solucionar um problema de minerao de dados;

    O Captulo 6 apresenta as concluses, contribuies e trabalhos futuros.

  • 25

    2 MINERAO DE DADOS

    2.1 Consideraes Iniciais

    A minerao de dados uma rea da cincia da computao que tem como objetivo encontrar padres interessantes em bases de dados. O surgimento dessa rea justificado pela necessidade de encontrar informaes teis em bases de dados de forma eficiente, onde so utilizados em conjunto tcnicas, mtodos e ferramentas desse domnio.

    Este captulo tem o intuito de abordar alguns conceitos desse domnio que so considerados importantes para o desenvolvimento do tema proposto neste trabalho. Assim, no decorrer deste captulo so abordados os seguintes assuntos:

    O processo de descoberta do conhecimento em base de dados, onde so expostos: caractersticas, fases, tarefas, tcnicas e algoritmos de minerao de dados;

    Metodologias para elaborao de projetos de minerao de dados, em especial as metodologias CRISP-DM e D3M, que so as mais importantes para o desenvolvimento deste trabalho; e

    Ferramentas utilizadas na minerao de dados.

    2.2 Descoberta de Conhecimento em Base de Dados

    A humanidade presencia a era da informao, ou seja, quem detm o conhecimento tem uma ampla vantagem em relao aos outros. Para poder buscar cada vez mais eficincia em suas atividades, as empresas e instituies de vrios setores ao longo do tempo (desde quando a informtica conquistou espao nas diversas reas do conhecimento) tm investido em sistemas de informao para poder otimizar e agilizar as atividades rotineiras. Com o desenvolvimento de sistemas de informao cada vez mais complexos, o barateamento no

  • 26

    armazenamento de dados e computadores cada vez mais poderosos, foi gerado grandes bases de dados, e a cada dia crescem ainda mais.

    A Cincia da Computao est em constante busca para empregar recursos computacionais nas mais diferentes reas, do modo mais rpido e confivel possvel. Ao constatar o crescimento acentuado nas bases de dados e a necessidade de analisar essas bases, foi desenvolvida uma ramificao da computao chamada minerao de dados (no final da dcada de 80), cuja idia principal seria descobrir padres interessantes nas bases de dados. Han e Kamber definem minerao de dados como: extrao ou minerao do conhecimento em um grande amontoado de dados. (HAN & KAMBER, 2006, p. 05, traduo nossa).

    Assim, a minerao de dados foi desenvolvida com a finalidade de analisar e retirar padres interessantes a partir de uma base de dados, pois para o ser humano seria praticamente invivel fazer uma anlise manualmente.

    A Figura 3 ilustra as etapas do processo de descoberta de conhecimento em bases de dados (KDD do ingls Knowledge Discovery in Databases).

    Figura 3: PROCESSO DE DESCOBERTA DO CONHECIMENTO (KDD) Fonte: Han & Kamber (2006, pg: 6, traduo nossa)

  • 27

    O Quadro 1 descreve brevemente cada uma das fases do processo KDD segundo Han & Kamber (2006, v.2 p.7, traduo nossa):

    Quadro 1: DESCRIO DAS FASES DO PROCESSO DE KDD (HAN & KAMBER, 2006) Fase Descrio da fase Limpeza de Dados

    Remover rudos e inconsistncias dos dados.

    Integrao dos dados

    Combinao de mltiplas fontes de dados.

    Seleo de dados

    Dados relevantes para a tarefa de anlise so selecionados da base de dados.

    Transformao de dados

    Dados so transformados ou consolidados dentro das formas apropriadas para minerao.

    Minerao de dados

    Aplicaes de mtodos inteligentes so utilizadas para extrair padres dos dados.

    Padro de avaliao

    Identificar os padres verdadeiramente interessantes.

    Apresentao do conhecimento

    Tcnicas de visualizao e representao so usadas para apresentar o conhecimento minerado para o usurio.

    As etapas citadas consistem em trabalhar a base de dados de modo que possa ser empregado o processo de KDD. Em resumo, as atividades a serem seguidas so: obter uma base de dados, preparar os dados, aplicar a MD e por fim mostrar e avaliar os padres encontrados.

    A minerao de dados um campo interdisciplinar que envolve vrias cincias do conhecimento, entre elas esto: tecnologia de banco de dados, aprendizagem de mquina, estatstica, cincia da informao, entre outras. Dessa forma, para conseguir atingir um determinado objetivo essencial que a equipe envolvida na tarefa de encontrar padres interessantes a partir da base de dados tenha diferentes habilidades; alm de ser essencial o trabalho em equipe.

    Entre as aplicaes que podem se beneficiar com a realizao da minerao de dados esto:

    Planejar instalao de novas filiais de empresa/lojas; Realizar promoes; Combinar itens de propaganda;

  • 28

    Limpeza de dados, integrao, e seleo

    Banco de dados Data Warehouse World Wide Web Outros Repositrios de Informao

    Servidor de banco de dadosou data warehouse

    Engenharia de minerao de dados

    Padres de avaliao

    Base deconhecimento

    Interface com o usurio

    Planejar estratgias de peridicos de campanhas de marketing.

    2.2.1 Arquitetura Tpica de um Sistema de MD

    Uma arquitetura tpica de um sistema de MD apresentada na Figura 4, segundo Han & Kamber (2006):

    Figura 4: ARQUITETURA TPICA DE UM SISTEMA DE MD Fonte: Han & Kamber (2006, pg: 08, traduo nossa)

    A descrio para essa arquitetura feita da seguinte forma, segundo Han e Kamber (2006):

    Banco de Dados, Data Warehouse, Word Wide Web e outros repositrios de informao: um ou um conjunto de banco de dados, data warehouse, planilhas, ou outros repositrios de

  • 29

    informao. A limpeza de dados ou tcnicas de integrao de dados pode ser executada sobre esses dados; Servidor de banco de dados ou data warehouse: responsvel por gerenciar os dados, com base na solicitao do usurio de minerao de dados; Base de Conhecimento: Este o domnio do conhecimento que usado para guiar as pesquisas ou avaliar os interesses dos padres resultantes. Tais conhecimentos podem incluir conceitos hierrquicos, usados para organizar atributos ou valores dos atributos dentro de diferentes nveis de abstrao; Engenharia de minerao de dados: um conjunto de mdulos funcionais para tarefas tais como caracterizao, associao e anlises de correlao, classificao, predio, anlise de cluster, anlise de outilier3 e anlise de evoluo; Mdulo de avaliao de padres: Este mdulo emprega medidas de interesse e interao com os mdulos de minerao de dados; Interface com o usurio: Este mdulo faz a comunicao entre usurios e a execuo do processo de minerao de dados, onde permitido ao usurio interagir com este processo, e especificar uma consulta de minerao de dados ou tarefa.

    Ao realizar uma tarefa nesta arquitetura tpica de um sistema de minerao de dados procura-se empregar as tcnicas de minerao de dados e assim poder encontrar informaes valiosas para uma determinada tarefa, conforme a necessidade a ser suprida.

    2.2.2 Tarefas da Minerao de Dados

    A Figura 5 apresenta as tarefas que so realizadas na minerao de dados:

    3 Anomalias

  • 30

    Anlise

    de A

    gru

    pam

    ento

    Modela

    gem

    Pre

    vis

    iva

    Anli

    se de

    Ass

    ocia

    oDeteco de

    Anom

    alias

    Figura 5: AS TAREFAS CENTRAIS DA MD Fonte: Tan et al. (2009, pg: 9)

    Conforme apresentado na Figura 5 as tarefas de minerao de dados so: anlise previsiva, anlise de agrupamento, anlise de associao e deteco de anomalias.

    O Quadro 2 faz uma breve descrio para cada uma dessas tarefas segundo Tan et al. (2009):

  • 31

    Quadro 2: DESCRIO DAS TAREFAS DE MINERAO DE DADOS, (Tan et al. 2009) Tarefa de Minerao de Dados

    Descrio

    Modelagem Previsiva Refere-se tarefa de construir um modelo para a varivel alvo como uma funo das variveis explicativas. H dois tipos de tarefas de modelagem de previso: classificao, a qual usada para variveis discretas, e regresso, que usada para variveis alvo contnuas. Exemplo: na Figura 6 apresentada uma rvore de deciso onde dada uma informao no banco de dados, estes dados poderiam ser classificados at chegar a uma informao desejada.

    Anlise de Associao usada para descobrir padres que descrevam caractersticas altamente associadas dentro dos dados. Exemplo: Na Figura 5 h uma associao entre {Fraldas} {Leite}, que sugere que os clientes que compram fraldas tendem a comprar leite.

    Anlise de Agrupamento Procura encontrar grupos de observaes intimamente relacionadas de modo que observaes que pertenam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertenam a outros grupos. Exemplo: na Figura 5 compras que tenham semelhanas umas com as outras, poderiam ser agrupadas assim como as pessoas que compraram leite e fralda.

    Deteco de Anomalias a tarefa de identificar observaes cujas caractersticas sejam significativamente diferentes do resto dos dados. Exemplo: na Figura 5 dados que no pertence a nenhuma caracterstica estabelecida seriam considerados anomalias.

    Para cada tarefa de minerao de dados h um conjunto de algoritmos especficos a ser aplicado, e estes utilizam determinadas tcnicas de minerao de dados que so abordados na seo 2.2.3.

    2.2.3 Tcnicas de Minerao de Dados

    Ao utilizar-se uma tarefa de MD, algumas tcnicas so usadas para concretiz-las. Entre estas tcnicas, Santos e Ramos (2009) destacam as seguintes: rvores de deciso, regras de associao, regresso linear, redes neurais, algoritmos genticos e vizinhos mais prximos. A seguir feita uma breve descrio de cada uma delas.

  • 32

    rvores de Deciso: Santos e Ramos (2009, p. 132) definem essa tcnica da seguinte maneira.

    As rvores de deciso, como o prprio nome indica, so constitudas por estruturas em rvores que representam um conjunto de decises. Os algoritmos dessa tcnica permitem gerar regras de classificao dos dados, baseados nas informaes armazenadas na base de dados. A Figura 6 apresenta um exemplo dessa estrutura.

    Bem

    Financiado

    Tipo

    ContratoEstado Civil Conceder

    Eletrodomstico CarroMveis

    Rendimento

    Bruto Conceder

    Casado Solteiro

    Idade

    Leasing

    No

    ConcederNo

    ConcederConceder No

    Conceder

    31-400-25002501 - 5000

    5001 - 1000

    Figura 6: RVORE DE DECISO Fonte: Santos e Ramos

    Na Figura 6 apresentado um exemplo prtico da utilizao de uma rvore de deciso, cujo objetivo conceder ou no crdito a uma determinada pessoa, onde levado em considerao o tipo de bem a ser financiado, o estado civil, o tipo de contrato, o rendimento bruto e a idade.

    Santos e Ramos (2009) abordam que as rvores de deciso podem ainda ser representadas por um conjunto de regras, como apresentado a seguir:

    Se Bem Financiado = Eletrodomstico e Estado Civil = Casado e Rendimento Bruto = 5001 10000 Ento Conceder.

    Santos e Ramos (2009) destacam que cada folha da rvore d origem a uma regra, sendo o seu contedo apresentado na parte consequente da regra.

  • 33

    Regras de Associao: Santos e Ramos (2009, p. 135) definem esta tcnica da seguinte maneira.

    O objetivo dessa tcnica identificar regras que relacionam uma concluso (por exemplo, a compra de um produto) com um conjunto de condies (por exemplo, a compra de outros produtos), permitindo encontrar relacionamentos entre os atributos existentes numa base de dados, sendo representado na forma de uma regra: Se X ento y ou X => Y.

    A Figura 7 apresenta um exemplo de uma base de dados e a utilizao de regras de associao para gerar associao entre os elementos.

    Figura 7: PROCESSO DE INDUO DE REGRAS DE ASSOCIAO Fonte: Santos e Ramos (2009)

    A Figura 7 apresenta um conjunto de dados associado compra de produtos, estes produtos so agrupados por compra e a partir desse agrupamento so geradas regras. No exemplo foi gerada a regra: Po & Manteiga => Leite (2:50%,1) indica que os clientes que compram o produto Po juntamente com o produto manteiga, tende a comprar o produto Leite, esta regra apresenta um suporte de 50%, o que significa que metade dos registros analisados pertencem a referida regra.

    Regresso Linear: Santos e Ramos (2009, p. 136) definem esta tcnica da seguinte maneira.

  • 34

    Esta tcnica utilizada sempre que se pretende prever uma varivel com valores contnuos. Os dados so modelados aproximando-os a uma linha reta. A forma mais simples de regresso apresentada atravs de uma equao com duas variveis, X e Y, tal que: Y = + X, onde X representa a varivel independente, Y a varivel dependente calculada a partir de X, e e os coeficientes da regresso.

    Redes Neurais Artificiais: Santos e Ramos (2009, p. 138) definem esta tcnica da seguinte forma.

    Redes neurais artificiais so sistemas classificatrios modelados segundo o funcionamento do sistema nervoso humano. Estes sistemas so compostos por um conjunto de unidades, organizadas em nveis. As unidades (ns) encontram-se conectadas atravs de ligaes, nas quais tm associado um peso. As unidades que constituem uma rede encontram-se agrupadas em trs grupos: unidades de entradas encarregadas de receber os dados (atributos) a analisar; unidade de sada que transmitem os sinais sada da rede; e um nmero ilimitado de nveis intermedirios (ou nveis ocultos) que contm as unidades intermedirias.

    A Figura 8 apresenta um exemplo de uma rede neural artificial.

    Figura 8: REDE NEURAL ARTIFICIAL Fonte Ramos e Santos (2009)

  • 35

    Santos e Ramos (2009) destacam tambm que existem dois estgios na utilizao de uma rede neural artificial. O primeiro diz respeito aprendizagem, no qual a rede treinada para a execuo de determinada tarefa. No segundo acontece a previso, na qual a rede utilizada para classificar registros desconhecidos. Estes conceitos tambm so aplicados em rvores de deciso.

    Algoritmos Genticos: Segundo Santos e Ramos (2009) a tcnica de algoritmo gentico utiliza princpios da biologia e da cincia da computao. Esta tcnica inicia com um conjunto de regras, as quais so submetidas a operadores de seleo e reproduo, de forma a desenvolverem regras mais apuradas, e ento so etiquetadas com determinado valor de utilidade, que facilita a seleo das mesmas. A Figura 9 apresenta um modelo de algoritmo gentico.

    Figura 9: MODO DE OPERAO DOS ALGORITMOS GENTICOS Fonte: Santos e Ramos (2009)

    Santos e Ramos (2009, p. 142) fazem a seguinte descrio para o funcionamento dessa tcnica.

    A Figura 9 (a),representa a amostra inicial dos dados, um conjunto com quatros regras. Para cada uma das regras identificado o valor de utilidade, atravs da funo de avaliao (Figura 9 (b)). Por exemplo, a primeira regra foi classificada com 8, o que significa que apresenta uma probabilidade de 32% de ser selecionada. Na Figura 9 (c), apresentada a identificao dos pares e a definio do ponto de cruzamento, o que conduz construo de novas regras, apresentadas na Figura 9 (d). O ltimo passo est associado mutao (Figura 9 (e)), no qual verificada a mutao aleatria de dois caracteres.

  • 36

    Vizinhos mais Prximos: Santos e Ramos (2009, p. 143) definem esta tcnica da seguinte maneira.

    A segmentao de dados atravs dos vizinhos mais prximos integra um conjunto de tcnicas que se baseiam no princpio de que registros semelhantes esto prximos uns dos outros, quando analisados numa perspectiva espacial. A verificao da localizao dos registros, interpretados como pontos no espao, permitem a identificao de regies denominadas classes (ou segmentos), que apresentam caractersticas comuns para os registros que representam.

    A Figura 10 exemplifica a funcionalidade dessa tcnica.

    Y

    X X

    X X

    (a) Centrides Iniciais (b) Primeira diviso

    (c) Reposicionamento dos centrides

    Y

    Y Y

    (d) Novos segmentos

    Figura 10: PROCESSO DE IDENTIFICAO DOS SEGMENTOS Fonte: Santos e Ramos (2009)

  • 37

    Santos e Ramos (2009, p. 144) fazem a seguinte descrio para o funcionamento da Figura 10.

    Na Figura 10 (a) apresentado o conjunto inicial dos dados, onde so selecionados trs pontos aleatrios, o cinzento, como sendo o centride do segmento. Para estes pontos, e na Figura 10 (b), verificam-se quais os registros (pontos) que integram cada um dos segmentos. No passo seguinte (Figura 10 (c)), so ajustados os centrides, atravs da verificao do ponto mdio dos elementos de um dado segmento. Para as novas posies dos centrides verificado a que segmento cada registro pertence, atendendo s alteraes observadas na posio dos centrides (Figura 10 (d)). Este processo sucessivamente repetido at que no sejam verificadas quaisquer mudanas na posio dos centrides e, como tal, nos registros que integram cada segmento.

    2.2.4 Algoritmos para minerao de dados

    Conforme as tarefas de minerao de dados (apresentado na seo 2.2.2) e as tcnicas (apresentado na seo 2.2.3) os algoritmos so construdos e ento implementados em uma ferramenta de minerao de dados. Nos prximos pargrafos so apresentados alguns algoritmos de minerao de dados, e tambm feita uma breve descrio de um algoritmo para cada tarefa de minerao de dados apresentada.

    Segundo Santos e Ramos (2009) as tcnicas de minerao so concretizadas atravs de diferentes algoritmos.

    Na seo 2.4 so apresentadas algumas ferramentas de minerao de dados, onde as mesmas so desenvolvidas para contemplar um algoritmo ou um conjunto de algoritmo de minerao de dados de acordo com o propsito da ferramenta. O Quadro 3 apresenta alguns algoritmos que so utilizados na ferramenta de minerao de dados WEKA.

    Quadro 3: ALGUNS ALGORITMOS PARA MINERAO DE DADOS, WEKA4 verso 3.7.1 (2010) Tarefa de Minerao de Dados Algortimo

    OPTICS SimpleKMeans

    Agrupamento

    K Means

    4 http://www.cs.waikato.ac.nz/ml/weka. Acesso 30/12/2010

  • 38

    J48 RAndomTree

    Classificao UserClassifier Apriori HotSpot

    Associao GeneralizedSequentialPatterns

    A tarefa de classificao exemplifica atravs do algoritmo J48. Esse algoritmo gera uma rvore de deciso. Segundo Tan et al. (2009) este algoritmo consiste na entrada de registros de treinamento E e o conjunto de atributos F. Ento o algoritmo funciona selecionando recursivamente o melhor atributo para dividir os dados e expandir os nodos da folha da rvore at que o critrio de parada seja satisfeito.

    A Tarefa de Associao exemplificada atravs do algoritmo Apriori. Segundo Tan et al. (2009) este algoritmo faz uso de poda baseada em suporte para controlar de forma sistemtica o crescimento exponencial dos conjuntos de itens candidatos. Inicialmente, cada item considerado como um conjunto candidato de item 1. Aps a contagem de seus suportes, os conjuntos de itens candidatos com menos transaes so descartados.

    Para a tarefa de agrupamento o algoritmo K-means exemplificado. Tan et al. (2009) abordam que esse algoritmo primeiro escolhe K centrides iniciais, onde K um parmetro especificado pelo usurio (o nmero de grupos desejado). Cada ponto atribudo ao centride mais prximo, e cada coleo de pontos atribudos a um centride um grupo. O centride de cada grupo ento atualizado baseado nos pontos atribudos ao grupo. feita a repetio desses passos at que nenhum ponto mude de grupo.

    Nesta seo foram apresentados alguns algoritmos para concretizar uma tarefa de minerao de dados, as quais podem utilizar uma ou mais tcnicas para a minerao de dados. Os algoritmos: J48, Apriori e K-Means foram abordados devido ao fato de muitos algoritmos de minerao de dados serem baseados nesses algoritmos.

  • 39

    2.3 Metodologias para Minerao de Dados

    A partir do momento que a minerao de dados passou a ser utilizada por empresas e a academia conseguiu comprovar sua eficincia, a mesma foi alvo de uma nova necessidade, que a criao de metodologias para definir o ciclo de vida de um processo de minerao de dados.

    Este trabalho aborda duas metodologias para a construo de um projeto de minerao de dados a CRISP-DM e a D3M.

    2.3.1 CRISP-DM

    Segundo Chapman et al. (2000) a metodologia CRISP-DM foi concebida no final dos anos de 1996 pelas empresas NCR (Estados Unidos da Amrica e Dinamarca), Daimler-Chrysler AH (Alemanha), SPSS Inc. (Estados Unidos da Amrica) e OHRA (Grupo Bancrio Holands). Essas empresas reuniram suas experincias para o desenvolvimento de um processo padro para minerao de dados e o batizaram de CRISP-DM.

    Segundo Chapman et al. (2000) CRISP-DM uma metodologia para as diferentes fases na implantao de um projeto de MD. Esta metodologia definida em termos de um processo hierrquico, que constitui em um conjunto de tarefas descritas em quatro nveis de abstrao (do geral para o especfico).

    A Figura 11 apresenta os quatro nveis de abstrao que so: fases, tarefas genricas, tarefas especficas e instncias do processo com seus respectivos conjuntos de tarefas.

  • 40

    Figura 11: QUATROS NVEIS HIERRQUICOS DA METODOLOGIA CRISP-DM Fonte: Chapman et al. (2000, pg. 9, traduo nossa)

    A Figura 11 mostra que para cada uma das fases superiores h um conjunto de tarefas na prxima fase, havendo uma hierarquia entre as tarefas, onde as tarefas gerais esto em um nvel superior e as mais especficas so uma ramificao das superiores.

    O Quadro 4 apresenta uma descrio para cada uma dessas fases, segundo Chapman et al. (2000):

    Quadro 4: DESCRIO DAS FASES DA METODOLOGIA CRISP-DM (CHAPMAN et al., 2000) Nvel Tarefa Fases O processo de minerao de dados organizado dentro de um nmero de

    fases; cada fase consiste de vrias tarefas do segundo-nvel. Exemplo: a tarefa Compreenso do Negcio.

    Tarefas Genricas chamado genrico, porque suficiente para cobrir todas as possibilidades da situao da minerao de dados. A tarefa genrica tem como pretenso ser completa e estvel. Exemplo: Identificar Objetivos do Negcio.

    Tarefas Especficas o nvel das tarefas especializadas, o lugar para descrever como as aes nas tarefas deveriam ser executadas em certas situaes especficas. Exemplo: Informao do Negcio.

  • 41

    Instncias Processo A instncia do processo um registro de aes, decises e resultados de uma atual funo da minerao de dados. Exemplo: Registrar os resultados da compreenso do negcio.

    O Quadro 4 fez uma breve descrio das tarefas existentes na metodologia CRISP-DM sob uma viso hierrquica. Como exemplo, foi apresentada uma das fases dessa metodologia com algumas de suas tarefas, onde a tarefa de Compreenso do Negcio contm a tarefa de Informao do Negcio, e esta contm o Registro dos Resultados da compreenso do Negcio. A prxima seo descreve cada fase dessa metodologia e suas respectivas tarefas.

    2.3.1.1 O Modelo de Referncia CRISP-DM

    Segundo Chapman et al. (2000), o ciclo de vida de um projeto de minerao de dados consiste em seis fases, que so: Entendimento do Negcio (Business Understanding), Entendimento dos Dados (Data Understanding), Preparao dos Dados (Data Preparation), Modelagem (Modeling), Avaliao (Evaluation) e Aplicao (Deployment).

    A Figura 12 apresenta essas fases e o relacionamento entre elas. A sequncia das fases no rgida, pode acontecer das tarefas posteriores voltarem para as fases anteriores, isso depende dos resultados de cada fase. As setas indicam as mais importantes e frequentes dependncias entre as fases.

  • 42

    Figura 12: FASE DO MODELO DE REFERNCIA DO CRISP-DM Fonte: Chapman et al. (2000, pg. 13, traduo nossa)

    Chapman et al. (2000) faz a seguinte descrio para cada uma dessas fases:

    Entendimento do negcio: esta fase foca no entendimento dos objetivos e requisitos do projeto sob uma perspectiva de negcio; Entendimento dos dados: esta fase tem como objetivo um entendimento inicial dos dados, e logo em seguida possui atividades que permitem um entendimento dos dados, identificar problemas em alguns dados, e encontrar subconjuntos de dados interessantes para o projeto; Preparao dos dados: A fase de preparao dos dados cobre todas as atividades para preparar os dados para a realizao das atividades; Modelagem: Nesta fase, vrias tcnicas de modelagem so selecionadas e aplicadas e seus parmetros so calibrados para obter valores otimizados;

  • 43

    Avaliao: Esta fase consiste em criar um modelo de alta qualidade a partir da anlise dos dados, e certificar que os objetivos sero alcanados na primeira fase onde foram estabelecidos. Alm disso, ser levantado se alguma questo importante do negcio no foi suficientemente considerada. No final dessa fase, uma deciso sobre a utilizao dos resultados da minerao dever ser avaliada; Aplicao: Esta fase consiste em estruturar e apresentar os resultados obtidos com a aplicao da tarefa da minerao de dados de modo que o cliente possa utilizar.

    Cada uma dessas fases possui um conjunto de atividades a serem realizadas. O Quadro 5 apresenta as fases com suas respectivas tarefas a serem executadas, segundo Chapman et al. (2000):

    Quadro 5: TAREFAS EXECUTAS EM CADA ETAPA DO CRISP-DM, (CHAPMAN et al., 2000) Fase Tarefas Entendimento do negcio Determinar os objetivos do negcio

    Avaliar a situao Determinar as metas de minerao de dados Produzir o plano do projeto

    Entendimento dos dados

    Coletar os dados iniciais Descrever os dados Explorar os dados Verificar a qualidade dos dados

    Preparao dos dados Selecionar os dados Limpeza de dados Construir dados Integrar os dados Formatar os dados

    Modelagem Selecionar as tcnicas de modelagem Gerar o teste padro Construir o modelo Avaliar o modelo

    Avaliao Avaliar os resultados Rever os processos Determinar os passos seguintes

  • 44

    Aplicao Plano de Aplicao Plano de modelagem & manuteno Produzir relatrio final Rever o projeto

    Alm da Metodologia CRISP-DM h outras metodologias que podem ser aplicadas em projetos de minerao de dados, entre estas metodologias a DM, que ser abordada na prxima seo, onde algumas dos seus propsitos foram utilizados com a ontologia desenvolvida, para criar uma arquitetura orientada ao domnio para ferramentas de minerao de dados.

    2.3.2 Minerao de Dados Orientada ao Domnio (DM)

    Segundo Cao e Zhang (2006) a minerao de dados realizada atualmente baseada em metodologias orientadas aos dados, onde a viso dos resultados feita de forma isolada, e tem como consequncia a gerao de muitos resultados que no interessam s necessidades dos negcios. Neste contexto, a metodologia DM veio para propor que o processo de minerao de dados seja baseado em conhecimento do domnio do negcio e na cooperao entre humanos e mquinas durante a minerao.

    Os fatores que justificam a criao e desenvolvimento da metodologia DM, que as metodologias atuais de minerao de dados apresentam as seguintes caractersticas, segundo Cao e Zhang (2006):

    Padres que so interessantes para os negcios frequentemente esto ocultos em grande quantidade de dados com estruturas de dados complexas, dinmicas, e origem distribuda; Distanciamento entre o meio acadmico e o interesse do negcio; Padres interessantes frequentemente no podem ser implementados na vida real, se eles no so integrados com regras do negcio, regulamentos e processos.

  • 45

    Para a metodologia DM foi criado um framework chamado DDID-PD (domain-driven in-depth pattern discovery), que considera os seguintes componentes chaves, segundo Cao e Zhang (2006):

    Restries baseadas em contexto: A descoberta de padres envolve uma profunda compreenso do ambiente em torno do domnio do problema, dos seus dados e da anlise de seus objetivos.

    Integrao do domnio de conhecimento: A integrao de conhecimentos de domnio est sujeito forma como ele pode ser representado e preenchido para o processo de descoberta de conhecimento. Ontologia baseada em representao do conhecimento de domnio uma das abordagens adequadas para o modelo de conhecimento do domnio.

    Cooperao entre homem e mquina: consiste em haver uma minerao de dados cooperativa entre especialistas e sistemas de minerao em todo o processo.

    Minerao em profundidade: consiste em avaliar e refinar conhecimento acionvel, na tentativa de buscar resultados mais interessantes para o objetivo do negcio.

    Descoberta de regras ou padres mais interessantes para o negcio (o que chamado de conhecimento acionvel): consiste em disparar regras quando forem descobertos dados que satisfaam um determinado conhecimento acionvel.

    Processo do refinamento iterativo dos resultados: consiste em criar sub-cenrios a partir do cenrio principal e ento refinar os padres gerados a partir do sub-cenrio criado.

    Suporte de minerao paralela e interativa: consiste em obter pedidos dos usurios, gerenciar informaes e usar algoritmos para process-los em mquinas distintas.

  • 46

    Entendimento do Problema &

    Definio

    Restrio baseadaem contexto

    Entendimento dosDados Modelagem

    Resultados daAvaliao

    Descoberta de regras ou padresmais interessantes

    para o negcio

    Processo dorefinamento Interativo dos

    resultados

    Desenvolvimento

    Suporte de Minerao paralela

    e interativa

    Minerao emprofundidade

    Cooperao entrehomem e mquina

    Integrao do domnio de

    conhecimento

    A Figura 13 apresenta o framework DDID-PD, onde as tarefas da metodologia DM apresentada nos pargrafos anteriores so combinadas com as tarefas tradicionais da minerao de dados.

    Figura 13: MODELO DO PROCESSO DDID-PD Fonte Cao e Zhang (2006, pg 53, traduo nossa)

    Segundo Cao e Zhang (2006), a sequncia apresentada na Figura 13 no rgida; algumas fases podem ser descartadas ou deslocadas para uma fase frente ou atrs em uma aplicao real. Cada passo do processo DDID-PD pode envolver conhecimento de domnio e auxilio de especialistas do domnio. Esse framework tem os componentes chaves de suporte para minerao de dados orientada ao domnio, que so crticas para o sucesso de um processo de minerao de dados no mundo real.

    2.4 Ferramentas para Minerao

    Atualmente h vrias ferramentas de minerao de dados que executam um ou vrios processos na descoberta de padres a partir dos dados. Algumas dessas ferramentas foram desenvolvidas em trabalhos de concluso de mestrado e doutorado nas faculdades onde h cursos nesses nveis; outras so de propriedades de empresas j consagradas no mercado. Dentre algumas dessas

  • 47

    ferramentas esto: Bramining5, Pacote Weka6, DBminer7, Oracle Data Mining8 e Kira (Mendes, 2009).

    Cada uma dessas ferramentas tem uma ou mais funes dentro do campo de minerao de dados. As subsees a seguir apresentam uma breve descrio da ferramenta Weka, por sua grande popularidade, e da ferramenta Kira, ter sido desenvolvida com o diferencial de ser amigvel para o usurio.

    2.4.1 A Ferramenta WEKA

    Weka uma abreviatura para Waikato Environment for Knowledge Analysis. Segundo Witten & Frank (2006) essa ferramenta contm um pacote de algoritmos para minerao de dados e ferramentas de pr e ps-processamento.

    Weka foi desenvolvida na Universidade de Waikato na Nova Zelndia. Ela foi desenvolvida em Java e distribuda sobre os termos de licena GNU. Pode ser executada em vrias plataformas, como o caso do Windows, Linux e Macintosh. Fornece uma interface uniforme para a aplicao de vrios algoritmos de aprendizado, juntamente com os mtodos de pr e ps-processamento. A Figura 14 apresenta a interface inicial da ferramenta Weka.

    Figura 14: TELA INICIAL DA FERRAMENTA WEKA Fonte: Ambiente de Desenvolvimento do WEKA

    5 www.graal-corp.com.br. Acesso: 16 jun. 2010.

    6 www.cs.waikato.ac.nz. Acesso: 16 jun. 2010.

    7 http://db.cs.sfu.ca/DBMiner. Acesso: 16 jun. 2010.

    8 www.oracle.com. Acesso: 16 jun. 2010.

  • 48

    A partir da interface da Figura 14, possvel acessar as funcionalidades da ferramenta. Segundo Witten & Frank (2006), Weka fornece implementaes de algoritmos de aprendizagem que podem ser aplicadas no conjunto de dados; isto inclui uma variedade de ferramentas para transformao de conjuntos de dados, tais como algoritmos para discretizao. Pode-se fazer o pr-processamento de um conjunto de dados e analisar os resultados de classificao e sua performance, isso sem escrever qualquer cdigo de programa. A Figura 15 mostra um dentre os ambientes de trabalho da Weka.

    Figura 15: AMBIENTE DE DESENVOLVIMENTO WEKA Fonte: Ambiente de Desenvolvimento do WEKA

    A utilizao dessa ferramenta por meio de abas e seleo do que o usurio deseja, conforme apresentado na Figura 15. Entre as vantagens encontradas ao utilizar esta ferramenta est o fato de dar suporte a vrios algoritmos de minerao de dados consagrados tanto no meio acadmico como em aplicaes de negcio; o ambiente de trabalho totalmente grfico, h livros e outras publicaes que servem como manuais de referncia para realizar o processo de descoberta de informaes a partir de uma base de dados, como, por exemplo: livro

  • 49

    de Witten e Frank (2005) e no stio www.cs.waikato.ac.nz/ml/weka/ onde podem ser obtidos vrios artigos relacionados aplicao da ferramenta Weka em projetos de minerao de dados.

    Algumas dificuldades foram levantadas ao utilizar esta ferramenta: dificuldades na fase de preparar os dados de maneira que a ferramenta possa trabalhar; o usurio deve ter um bom conhecimento de minerao de dados para definir o que se deseja fazer e interpretar os padres gerados. Estas dificuldades foram constatadas ao realizar projetos fictcios de minerao de dados.

    2.4.2 Ferramenta de Minerao de Dados Kira

    A ferramenta de minerao de dados Kira foi desenvolvida por Mendes (2009), como parte de um trabalho de mestrado.

    A inteno dessa ferramenta abstrair grande parte do conhecimento exigido do analista de dados para executar a tarefa de minerao de dados. possvel realizar um projeto de minerao de dados a partir das orientaes que so descritas em cada uma das telas dessa ferramenta.

    A Figura 16 apresenta a arquitetura da ferramenta KIRA, que possui trs camadas. Estas camadas so descritas nos prximos pargrafos.

    A Camada 1 est relacionada com a interface do usurio, onde o usurio pode ver e inserir informaes para realizar um projeto de minerao de dados, entre estas operaes esto definir o problema e objetivo da minerao de dados e ser orientado pela a ferramenta nas diversas operaes a serem realizadas durante o projeto de minerao de dados, como preparar os dados, definir a tarefa de minerao de dados e visualizar os resultados produzidos.

    Na Camada 2 ocorre as operaes lgicas da ferramenta, onde os dados so preparados, feito a anlise dos dados, e realizado a execuo da minerao de dados, alm disso nesta camada foi implementado um sistema especialista desenvolvido por Silva et al. (2009) para definir qual tarefa de minerao a mais adequada para o projeto de minerao de dados que est em execuo.

    A Camada 3 est relacionada com o repositrio de informaes, onde esto os diferentes tipos de dados, como, por exemplo: a base de dados a ser

  • 50

    minerada, dados prontos para ser minerados, repositrio de informaes entre outros.

    Figura 16: ARQUITETURA DA FERRAMENTA KIRA Fonte: Silva et al. (2009, pg 13)

    Segundo Mendes (2009), cada mdulo da Camada 1 (Interface do Usurio) tm como objetivo oferecer facilidades para o usurio preparar os dados, executar o algoritmo de minerao e avaliar os padres obtidos. Inicialmente, o usurio tem acesso s funes para ajustar os parmetros das fontes de dados a serem usadas. Depois o usurio orientado a oferecer informaes especficas, escolher e estruturar os dados destinados, escolher e executar um algoritmo de minerao de dados e analisar os resultados gerados. No final de cada fase, o usurio informado sobre o prximo passo do processo. Estes processos guias acompanham o usurio na execuo de cada etapa no tendo a necessidade de conhecimentos detalhados sobre o processo de minerao de dados. A Figura 17 apresenta uma das interfaces da ferramenta Kira, onde mostra uma viso geral dos passos a serem seguidos para a realizao da minerao de dados.

  • 51

    Figura 17: TELA DA FERRAMENTA KIRA Fonte: Ambiente de desenvolvimento da Ferramenta Kira

    Entre os componentes da interface desta ferramenta esto: O diagrama de blocos: demonstra cada passo que a ferramenta ir executar; No canto direito inferior existe uma legenda que identifica a representao de cada um dos itens que compem o diagrama de blocos; A paleta esquerda est dividida da seguinte forma:

    o Fontes de dados, onde indicada a fonte de dados utilizada; o Projetos, nome atribudo ao projeto de minerao de dados; o Etapas da minerao indicam cada uma das etapas a ser realizadas.

  • 52

    A Figura 18 apresenta uma das intefaces da ferramenta Kira para executar a atividade de definir o problema e objetivo de um projeto de minerao de dados.

    Figura 18: IDENTIFICAO DA TAREFA DE MINERAO Fonte: Ambiente de Desenvolvimento da Ferramenta

    A partir da Figura 18, o minerador de dados faz uma anlise do propsito do projeto de minerao de dados e auxliado pela a guia de descrio do que deve ser feito no lado esquerdo da ferramenta defini o objetivo e o problema do projeto de minerao de dados a ser realizado.

    O funcionamento desta ferramenta consiste em chamar a tela com o diagrama de blocos apresentada na Figura 17, e ento indicado o prximo processo a ser executado e logo, em seguida, uma outra tela exibida com campos a serem preenchidos auxiliados por mensagens, como apresentado na Figura 18.

    O funcionamento desta ferramenta resumidamente consiste em executar as seguintes etapas:

    Escolher uma base de dados, Atribuir um nome ao projeto, Descrever o problema a ser resolvido e objetivo a ser cumprido,

  • 53

    Fazer a preparao dos dados, Selecionar a tarefa de minerao de dados. Avaliar os resultados da minerao de dados.

    Na etapa final a ferramenta mostra o resultado dos padres gerados. Em todas as etapas, no lado direito h uma tag que indica ao usurio o que fazer.

    2.5 Consideraes Finais

    Um projeto de minerao de dados envolve vrias fases. A metodologia CRISP-DM foi desenvolvida para elaborao de projetos de minerao de dados orientados a dados onde disciplina e descreve o que o minerador deve fazer no conjunto de etapas da metodologia.

    A metodologia DM foi desenvolvida para tornar a minerao de dados mais interativa, cujo propsito uma minerao feita a partir do conhecimento do domnio, onde suas tarefas so combinadas com as tarefas de uma metodologia orientada a dados na tentativa de buscar resultados melhores.

    As fases da CRISP-DM e a necessidade do conhecimento humano no processo de minerao de dados so a base para o desenvolvimento da ontologia META-DM. Porm para realizar esta tarefa foi necessrio fazer um levantamento bibliogrfico sobre ontologias, que abordado no prximo captulo.

  • 54

    3 ONTOLOGIAS

    3.1 Consideraes Iniciais

    Ontologias vm sendo aplicadas em vrios domnios da computao (Web Semntica, Segurana da Informao, Minerao de Dados entre outros) como forma de representar determinado domnio por meio de conceitos e relacionamentos entre eles.

    Neste captulo descrito alguns aspectos sobre ontologias, considerados importantes, que so necessrios para o desenvolvimento da ontologia de domnio proposta. Entre estes aspectos esto: conceito e classificao de ontologias, metodologias para criar ontologias, linguagens para implementao de ontologias e ferramentas para desenvolver ontologias.

    As subsees abaixo detalham cada um desses itens com o objetivo de levantar informaes bibliogrficas suficientes para o desenvolvimento da ontologia de domnio proposta.

    3.2 Definies

    Um projeto, independentemente de sua natureza (seja computacional, de engenharia, mdica e outros), tem vrias pessoas envolvidas. Dessa forma, h necessidade que os envolvidos em um determinado projeto entendam o que os outros fizeram na fase anterior, para que possam comear uma funo da melhor forma possvel. Diante da necessidade de um constante entendimento de uma situao surgiu o termo ontologia.

    H diversas definies para o termo ontologia, como a utilizada por Falbo et al. (1998, p. 2) a seguir:

    Uma ontologia uma especificao de uma conceitualizao que uma descrio de conceitos e relaes que podem existir para um agente de software ou um agente da comunidade. Basicamente, uma ontologia consiste de conceitos e relaes, e suas definies, propriedades e restries so expressas como axiomas. Uma Ontologia no somente uma hierarquia de termos, mas uma estrutura falando sobre um domnio. (traduo nossa)

  • 55

    A maioria das definies para o termo ontologia, inclusive a utilizada por Falbo et al. (1998), so extenses da definio de Gruber (1993), que amplamente aceita na comunidade cientfica.

    Segundo Gruber (1993), uma ontologia uma especificao explcita de uma conceituao, ou seja, uma representao de um determinado conhecimento de maneira formal.

    Neste trabalho, ser adotada a definio feita por Falbo et al. (1998), pois ela se mostra completa e deixa explcito o uso de ontologias para expressar conhecimento sobre determinado domnio, o que vai ao encontro, ao objetivo deste trabalho.

    Segundo Noy & McGuinness (2001) a primeira aplicao de ontologias, na rea de Cincia da Computao, foi no campo da inteligncia artificial em meados dos anos 90. Desde ento, as ontologias tm sido aplicadas em vrios ramos da Cincia da Computao, como, por exemplo: web semntica, engenharia de software, arquitetura da informao, dentre outros, como uma forma de representar conhecimento sobre o mundo ou parte desse mundo.

    3.3 Classificao das Ontologias

    De acordo com Linhalis (2007), ontologias podem ser classificadas sob diversos aspectos, como, por exemplo, o grau de formalismo do vocabulrio, a estrutura, o contedo da conceituao, dentre outros. Uma das classificaes mais citadas na literatura a feita por Guarino (1998), que classifica as ontologias segundo sua funo e as divide em trs nveis. A Figura 19 apresenta essa diviso e a inter-relao dos tipos de ontologias.

  • 56

    Figura 19: CLASSIFICAO DE ONTOLOGIAS Fonte: Guarino (1998, pg: 9, traduo nossa)

    O Quadro 6 faz uma breve descrio dos nveis que compem a classificao de ontologias de acordo com Guarino (1998).

    Quadro 6: DESCRIO DOS TIPOS DE ONTOLOGIAS, GUARINO (1998) Tipo de Ontologia Descrio

    Alto Nvel Descreve conceitos gerais, como espao, tempo, ao e outros; que so independentes de um problema ou domnio especfico. Exemplo: Cyc9, WordNet10 e SUMO11

    Domnio e Tarefa Refere-se, respectivamente, a um vocabulrio relacionado a um domnio (como medicina ou automveis) ou a uma tarefa ou atividade (como diagnstico e venda), que especializa os termos introduzidos na ontologia de alto nvel. Exemplo: ontologia de veculos, documentos e computadores.

    Aplicao Descreve conceitos que dependem de domnios e tarefas particulares, que so frequentemente especializaes das ontologias relacionadas. Exemplo: Uma ontologia que trabalhe com carros de luxos, que especializar conceito da ontologia de veculos (que uma ontologia de domnio).

    9 http://www.cyc.com/. Acesso em: 03 set. 2010.

    10 http://wordnet.princeton.edu/. Acesso em: 03 set. 2010.

    11 http://ontology.teknowledge.com/. Acesso em: 03 set. 2010.

  • 57

    3.4 Metodologias para Desenvolvimento de Ontologias

    Vrios autores desenvolveram etapas a serem seguidas para construir ontologias, organizadas de modo que fornea suporte para que os envolvidos em um determinado projeto saibam que tcnicas so mais apropriadas e o que cada um vai produzir. Ao conjunto dessas etapas deu-se o nome de metodologias. Este trabalho utiliza duas metodologias para o desenvolvimento de ontologias: a metodologia de Noy e McGuiness (2001) e a Metodologia METHONTOLOGY.

    Na metodologia desenvolvida por Noy e McGuiness (2001) propem-se as seguintes fases:

    1) Determinar o domnio e o escopo da ontologia: consiste em verificar o que a ontologia ir cobrir e assim limitar o escopo do modelo. Ao longo do desenvolvimento esta fase pode ser alterada de acordo com o amadurecimento dos reais propsitos da criao da ontologia; 2) Considerar a reutilizao de outras ontologias: consiste em verificar o que j foi criado e refinar ou estender para o domnio ou tarefa no qual se deseja trabalhar; 3) Enumerar termos importantes para a ontologia: consiste em encontrar os termos mais comuns no domnio e as propriedades que eles possuem; 4) Definir as classes e a hierarquia entre elas: consiste em observar a clareza e a consistncia da hierarquia ao serem criadas subclasses. Isto , deve-se observar se uma classe tem subclasses a mais ou a menos; 5) Definir as propriedades das classes: consiste em criar alguns conceitos na hierarquia, e, logo em seguida suas propriedades; 6) Definir as facetas das propriedades: consiste em descrever os valores de tipos, valores permitidos, nmero mximo e mnimo (cardinalidades) para os valores das propriedades, e outros;

  • 58

    7) Criar instncias: consiste em escolher a classe para a qual se deseja criar as instncias, criar uma instncia e preencher os valores das propriedades para cada instncia.

    Linhalis (2007) ressalta que a metodologia de Noy e McGuinness se concentra principalmente na fase de conceituao, que a mais crtica no desenvolvimento de uma ontologia, pois a mais ligada definio do conhecimento.

    A metodologia de Noy e McGuiness (2001) foi adotada com o objetivo de definir conceitos, propriedades e relacionamentos para o domnio de minerao de dados. A metodologia d nfase fase de conceituao, e por isso se mostra bem adequada para este propsito.

    A proposta da metodologia METHONTOLOGY, segundo Fernndez et al. (1997), baseia-se na construo de ontologias a partir do ponto zero, e podem ser utilizadas outras ontologias ou no. Os autores fazem uma comparao do ciclo de vida de uma ontologia com o processo de desenvolvimento de um software tradicional e ressaltam que bem complicado levantar todos os requisitos necessrios antes de comear o processo de desenvolvimento. As fases do ciclo de vida de uma ontologia para esta metodologia so: especificao, aquisio do conhecimento, conceituao, integrao, implementao, avaliao e documentao.

    Para documentar o ciclo de vida do desenvolvimento da ontologia a metodologia METHONTOLOGY foi adotada. O Quadro 7 faz uma descrio de cada uma dessas fases:

    Quadro 7: ETAPAS DA METODOLOGIA METHONTOLOGY, Fernndez et al. (1997) Fases Descrio Especificao A meta dessa fase produzir um documento de especificao da ontologia,

    escrito em uma linguagem natural, onde usado um conjunto de representao intermediria ou questes de competncia. Nesta fase proposto que no mnimo as seguintes informaes devem ser includas:

    O propsito da ontologia: incluindo usurio, cenrios de uso, usurios finais, etc.

    Nvel de formalidade da ontologia implementada: depende da formalidade que ir ser usada para codificar os termos e seus significados. O grau de formalidade pode ser altamente formal, semi-

  • 59

    formal ou rigorosamente formal. Escopo que a ontologia ir cobrir: inclui um conjunto de termos a ser

    representado, suas caractersticas e granulosidade. Aquisio de conhecimento

    Esta fase realizada simultaneamente com a fase de especificao, e est relacionada a adquirir conhecimentos necessrios para comear o processo de criao da ontologia, um processo independente do desenvolvimento da ontologia, no entanto coincide com outras atividades. Para adquirir o conhecimento necessrio so utilizadas consultas a especialistas, livros, manuais, figuras, tabelas e mesmo outras ontologias como fonte de conhecimento. Esses elementos podem ser usados em conjunto com: brainstorming, entrevistas, anlise de texto formal e informal e ferramentas de aquisio de conhecimento.

    Conceituao Nesta fase ser estruturado o conhecimento de domnio em um modelo conceitual que ir descrever o problema e suas solues em termos do vocabulrio de domnio identificado na atividade de especificao da ontologia. A primeira atividade a ser realizada construir um completo Glossrio de Termos (conceitos, instncias, verbos e propriedades), que ir resumir tudo o que til e potencialmente utilizvel no conhecimento de domnio e seu significado. Uma vez completado o glossrio de termos, deve-se agrupar os termos em conceitos (dicionrio de dados que descreve e rene tudo o que til e potencialmente usado no conceito de domnio, seus significados, atributos e instncias) e verbos (aes no domnio). No final dessa fase ser produzido um modelo conceitual expresso como um conjunto de conceitos bem definidos, que permitir ao usurio final: verificar se a ontologia ser ou no til e utilizvel para uma aplicao sem inspecionar seu cdigo fonte; e comparar o escopo e plenitude de vrias ontologias, sua reusabilidade e compatibilidade pela anlise do conhecimento.

    Integrao Como meta de acelerar o processo de desenvolvimento de uma ontologia, pode-se considerar o reuso de definies j desenvolvidas, dentro de outras ontologias, ao invs de comear a construo do seu incio.

    Implementao Consiste em implementar a ontologia em uma linguagem formal, tais como: CLASSIC, OWL, LOOM, Ontolingua, ou uma outra linguagem de programao. Nesta fase requerido um ambiente de desenvolvimento de ontologias e que deve pelo menos incluir: uma analise lxica e sinttica, um tradutor, um editor, um navegador, realizar pesquisa de termos e apresentao dos resultados produzidos.

    Avaliao Realizar um julgamento tcnico da ontologia, seu ambiente de software e documentao. A avaliao inclui os termos de verificao e validao. Verificao refere-se ao processo tcnico que garante a correo de uma

  • 60

    ontologia e validao garante que a ontologia desenvolvida representa o domnio do conhecimento definido na fase de especificao.

    Documentao Para cada uma das fases anteriores feito um documento descrevendo o que foi realizado. A documentao parte integrante do desenvolvimento da ontologia. Assim esta etapa est presente em todas as anteriores.

    O conjunto dessas etapas forma o ciclo de vida de desenvolvimento de uma ontologia. Esta metodologia foi adotada neste trabalho para registrar cada um dos passos do desenvolvimento da ontologia.

    3.5 Linguagens para Representao de ontologias

    Segundo Linhalis (2007), no incio dos anos 90 um conjunto de linguagens para implementao de ontologias foram desenvolvidas a fim de formalizar as informaes nas ontologias. Essas linguagens utilizam um ou mais formalismos para representar conhecimento, tais como regras de produo, lgica de primeira ordem, lgica de segunda ordem, frames, redes semnticas e lgica de descries (Russel & Norving, 2003).

    O Quadro 8 mostra algumas das linguagens para implementao de ontologias (Linhalis, 2007).

    Quadro 8: LINGUAGENS PARA REPRESENTAR ONTOLOGIAS (LINHALIS, 2007) Linguagem Caracterstica Ontolingua12 Foi desenvolvida em 1992;

    Combina frames e lgica de primeira ordem para representar conhecimento; Apresenta taxonomia de conceitos, relaes n-rias, funes, axiomas,

    instncias e procedimentos; O grande poder de expressividade dessa linguagem dificulta o

    desenvolvimento de inferncia. LOOM13 Foi desenvolvida no mesmo perodo da Ontolingua;

    Inicialmente, no foi criada para representar ontologias, mas bases de conhecimentos genricas;

    baseada em lgica de descries e regras de produo;

    12 http://ontolingua.stanford.edu/. Acesso: 16 jun. 2010

    13 http://www.isi.edu/isd/LOOM/. Acesso: 16 jun. 2010.

  • 61

    Fornece a classificao automtica de conceitos e pode representar taxonomias de conceitos, relaes n-reas, funes, axiomas e regras de produo.

    OCML14 Foi desenvolvida em 1993; considerada uma Ontoling