Ferramentas Java para Recuperação e Mineração de Informações

  • View
    104

  • Download
    2

Embed Size (px)

Text of Ferramentas Java para Recuperação e Mineração de Informações

  • 1. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eFerramentas Java para Recuperao e Minerao ca ca de Informaes co Fabr J. Barth1,2 cio 1 Fundao ca 2 CentroAtech Tecnologias Cr ticas (fbarth@atech.br)Universitrio SENAC (fabricio.jbarth@sp.senac.br) a9 de setembro de 2008Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co

2. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e1Contexto, Problemas e Objetivos Problema 1: recuperar a informao ca Problema 2: tratar a informao recuperada ca2Estudo de caso3Conceitos, tcnicas e ferramentas e Agrupamento de documentos Classicao de documentos ca Recuperao de Informao ca ca4Consideraes e Referncias co e Consideraes co Referncias eFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 3. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eContexto: Enorme quantidade de dados que precisa ser processadaFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 4. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Problema 1: recuperar a informao caProblema 1: recuperar a informao caFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 5. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Problema 2: tratar a informao recuperada caProblema 2: tratar a informao recuperada caFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 6. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eQuantidade de not cias produzidas na Web? Notcias publicadas na Internet 160000 Estado Folha G1 Globo Online Terra ltimo Segundo Total140000Quantidade (Notcias)120000100000800006000040000200000 0510152025303540455055606570758085Tempo (Dias)Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 7. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eQuantidade de not cias produzidas na Web? Relao Horrio x Dia x Quantidade de Notcias Produzidas500 450 400 350 300 250 200 150 100 50 0500 400 Notcias300 200 100 002468Horrio10 12 30 14 16 20 10 18 20 22 0Fabr cio J. Barth - Just Java 2008405060708090DiaFerramentas para Recuperao e Minerao de Informaes ca ca co 8. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eProblema e Sugestes o Problema: Para tirar proveito desta informao necessrio organiz-la de ca e a a alguma forma...Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 9. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co eProblema e Sugestes o Problema: Para tirar proveito desta informao necessrio organiz-la de ca e a a alguma forma... Sugestes: o Agrupamento de Not cias. Classicao, Recomendao e Filtragem de Not ca ca cias.Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 10. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosPor que agrupar not cias? Como agrup-las? aFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 11. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosDenies de Algoritmos de Agrupamento coO objetivo dos algoritmos de agrupamento colocar os e objetos similares em um mesmo grupo e objetos no similares a em grupos diferentes. Normalmente, objetos so descritos e agrupados usando um a conjunto de atributos e valores. No existe nenhuma informao sobre a classe ou categoria a ca dos objetos.Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 12. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosFormato de um documento... Esta disciplina tem como objetivo apresentar os principais conceitos da rea de Inteligncia Articial, caracterizar as principais tcnicas e a e e mtodos, e implementar alguns problemas clssicos desta rea sob um e a a ponto de vista introdutrio. o A estratgia de trabalho, o contedo ministrado e a forma dependero e u a dos projetos selecionados pelos alunos. Inicialmente, os alunos devero a trazer os seus Projetos de Concluso de Curso, identicar interseces a co entre o projeto e a disciplina, e propor atividades para a disciplina. ...Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 13. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosAtributo/Valor usando vetoresComo representar os documentos?Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 14. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosAtributo/Valor usando vetoresComo representar os documentos? di = (pi1 , pi2 , , pin)(1)Os atributos so as palavras que aparecem nos documentos. aFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 15. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosAtributo/Valor usando vetoresComo representar os documentos? di = (pi1 , pi2 , , pin)(1)Os atributos so as palavras que aparecem nos documentos. a Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor no car muito grande? a aFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 16. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosDiminuindo a dimensionalidade do vetorComo ltrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem tomos (palavras) que no a a signicam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da rea de Inteligncia Articial, caracterizar as principais tcnicas e a e e mtodos, e implementar alguns problemas clssicos desta rea sob um e a a ponto de vista introdutrio. o Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 17. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosDiminuindo ainda mais a dimensionalidade do vetorAlgumas palavras podem aparecer no texto de diversas maneiras: tcnica, tcnicas, implementar, implementao... e e ca Stemming - encontrar o radical da palavra e usar apenas o radical.Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 18. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosAtributo/Valor usando vetoresJ conhecemos os atributos. a E os valores?Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 19. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosAtributo/Valor usando vetoresJ conhecemos os atributos. a E os valores? Booleana - se a palavra aparece ou no no documento (1 ou 0) a Por freqncia do termo - a freqncia com que a palavra ue ue aparece no documento (normalizada ou no) a Ponderao tf-idf - o peso proporcional ao nmero de ca e u ocorrncias do termo no documento e inversamente e proporcional ao nmero de documentos onde o termo aparece. uFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 20. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosPor freqncia do termo ue(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identic,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33)Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 21. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosConjunto de Exemplos - Atributo/ValorDoc.apresentformtecniccaracterizd1 d2 d3 d4 d5 dn0.33 0 1 0.4 1 0.33 0.5 0.6 0.3 0.4 0.33 0.2 0 0.33 0.1 0.33 0.33 0 0.4 0.1 Fabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 22. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosComponentes da Soluo caFabr cio J. Barth - Just Java 2008Ferramentas para Recuperao e Minerao de Informaes ca ca co 23. Sumrio Contexto, Problemas e Objetivos Estudo de caso Conceitos, tcnicas e ferramentas Consideraes e Referncias a e co e Agrupamento de documentosColetor de RSS e Pr-Processamento e function coletorRSS(Lista de RSS): tabela i 0; for cada rssi em RSS do for cada notic