Transcript
Page 1: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Ferramentas Java para Recuperacao e Mineracaode Informacoes

Fabrıcio J. Barth1,2

1Fundacao Atech Tecnologias Crıticas ([email protected])2Centro Universitario SENAC ([email protected])

9 de setembro de 2008

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 2: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

1 Contexto, Problemas e ObjetivosProblema 1: recuperar a informacaoProblema 2: tratar a informacao recuperada

2 Estudo de caso

3 Conceitos, tecnicas e ferramentasAgrupamento de documentosClassificacao de documentosRecuperacao de Informacao

4 Consideracoes e ReferenciasConsideracoesReferencias

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 3: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Contexto: Enorme quantidade de dados que precisa serprocessada

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 4: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Problema 1: recuperar a informacao

Problema 1: recuperar a informacao

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 5: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Problema 2: tratar a informacao recuperada

Problema 2: tratar a informacao recuperada

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 6: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Quantidade de notıcias produzidas na Web?

0

20000

40000

60000

80000

100000

120000

140000

160000

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85

Qua

ntid

ade

(Not

ícia

s)

Tempo (Dias)

Notícias publicadas na Internet

EstadãoFolha

G1Globo Online

TerraÚltimo Segundo

Total

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 7: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Quantidade de notıcias produzidas na Web?

0 50 100 150 200 250 300 350 400 450 500

Relação Horário x Dia x Quantidade de Notícias Produzidas

0 2 4 6 8 10 12 14 16 18 20 22Horário

0 10

20 30

40 50

60 70

80 90

Dia

0

100

200

300

400

500

Notícias

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 8: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Problema e Sugestoes

Problema:

Para tirar proveito desta informacao e necessario organiza-la dealguma forma...

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 9: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Problema e Sugestoes

Problema:

Para tirar proveito desta informacao e necessario organiza-la dealguma forma...

Sugestoes:

Agrupamento de Notıcias.

Classificacao, Recomendacao e Filtragem de Notıcias.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 10: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Por que agrupar notıcias?

Como agrupa-las?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 11: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Definicoes de Algoritmos de Agrupamento

O objetivo dos algoritmos de agrupamento e colocar osobjetos similares em um mesmo grupo e objetos nao similaresem grupos diferentes.

Normalmente, objetos sao descritos e agrupados usando umconjunto de atributos e valores.

Nao existe nenhuma informacao sobre a classe ou categoriados objetos.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 12: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Formato de um documento

... Esta disciplina tem como objetivo apresentar os principais conceitos daarea de Inteligencia Artificial, caracterizar as principais tecnicas emetodos, e implementar alguns problemas classicos desta area sob umponto de vista introdutorio.A estrategia de trabalho, o conteudo ministrado e a forma dependeraodos projetos selecionados pelos alunos. Inicialmente, os alunos deveraotrazer os seus Projetos de Conclusao de Curso, identificar interseccoesentre o projeto e a disciplina, e propor atividades para a disciplina. ...

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 13: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 14: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?

−→

di = (pi1, pi2, · · · , pin) (1)

Os atributos sao as palavras que aparecem nos documentos.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 15: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?

−→

di = (pi1, pi2, · · · , pin) (1)

Os atributos sao as palavras que aparecem nos documentos.

Se todas as palavras que aparecem nos documentos foremutilizadas, o vetor nao ficara muito grande?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 16: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Diminuindo a dimensionalidade do vetor

Como filtrar as palavras que devem ser usadas comoatributos?

Em todos os idiomas existem atomos (palavras) que naosignificam muito. Stop-words

Esta disciplina tem como objetivo apresentar os principais conceitos daarea de Inteligencia Artificial, caracterizar as principais tecnicas emetodos, e implementar alguns problemas classicos desta area sob umponto de vista introdutorio.

· · ·

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 17: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Diminuindo ainda mais a dimensionalidade do vetor

Algumas palavras podem aparecer no texto de diversasmaneiras: tecnica, tecnicas, implementar, implementacao...

Stemming - encontrar o radical da palavra e usar apenas oradical.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 18: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Atributo/Valor usando vetores

Ja conhecemos os atributos.

E os valores?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 19: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Atributo/Valor usando vetores

Ja conhecemos os atributos.

E os valores?

Booleana - se a palavra aparece ou nao no documento (1 ou 0)Por frequencia do termo - a frequencia com que a palavraaparece no documento (normalizada ou nao)Ponderacao tf-idf - o peso e proporcional ao numero deocorrencias do termo no documento e inversamenteproporcional ao numero de documentos onde o termo aparece.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 20: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Por frequencia do termo

(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0)

(introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33)

(selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33)

(conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33)

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 21: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Conjunto de Exemplos - Atributo/Valor

Doc. apresent form tecnic caracteriz · · ·

d1 0.33 0.33 0.33 0.33 · · ·

d2 0 0.5 0.2 0.33 · · ·

d3 1 0.6 0 0 · · ·

d4 0.4 0.3 0.33 0.4 · · ·

d5 1 0.4 0.1 0.1 · · ·

dn · · · · · · · · · · · · · · ·

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 22: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Componentes da Solucao

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 23: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Coletor de RSS e Pre-Processamento

function coletorRSS(Lista de RSS): tabela

i ← 0;for cada rssi em RSS do

for cada noticiaj em rssi do

di ← di+ rssi .noticiaj .TITLE;di ← di+ rssi .noticiaj .DESCRIPTION;di ← eliminaStopWords(di );di ← stemming(di );i ← i + 1;

end for

end for

return criaTabelaExemplos(d ,TF-IDF);

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 24: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Pre-processamento dos documentos - RapidMiner

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 25: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Caracterısticas e Funcionalidades do RapidMiner

O usuario define um processo de tratamento dos dados.

Os operadores podem ser divididos nas seguintes categorias:

IOLearner (Supervised / Unsupervised)OLAP (On-line Analytical Processing)PostprocessingPreprocessingValidationVisualization

Cada operador pode ser devidamente configurado.

Existem ambientes para: definicao do processo e execucao doprocesso.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 26: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Pre-processamento dos documentos - RapidMiner

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 27: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Pre-processamento dos documentos - Codigo

� �import edu . udo . c s . wvtoo l . g e n e r i c . stemmer . PorterStemmerWrapper ;import edu . udo . c s . wvtoo l . g e n e r i c . t o k e n i z e r . S imp l eToken i z e r ;import edu . udo . c s . wvtoo l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ;

. . .

pub l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){t r y{

WVTDocumentInfo document In fo = new WVTDocumentInfo( nu l l , ” html ” , nu l l , ” e n g l i s h ” ) ;

S imp l eToken i z e r t o k e n i z e r = new S imp l eToken i z e r ( ) ;TokenEnumerat ion tokens = t o k e n i z e r . t o k e n i z e (

new I nputSt reamReader (new F i l e I n pu tS t r e am ( nomeArquivo ) ) , document In fo ) ;

PorterStemmerWrapper stemmer = new PorterStemmerWrapper ( ) ;StopWordsWrapper stopWords = new StopWordsWrapper ( ) ;TokenEnumerat ion tokenSemStopWord = stopWords . f i l t e r (

tokens , document In fo ) ;S t r i n g r e t o r n o = ”” ;wh i l e ( tokenSemStopWord . hasMoreTokens ( ) )

r e t o r n o = r e t o r n o +stemmer . getBase ( tokenSemStopWord . nextToken ())+” ” ;

r e t u rn r e t o r n o ;. . .

� �

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 28: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Conjunto de treinamento - Arquivo Arff

� �@RELATION RapidMinerData

@ATTRIBUTE ’ network ’ r e a l

@ATTRIBUTE ’ f e b r u a r i ’ r e a l

@ATTRIBUTE ’member ’ r e a l

@ATTRIBUTE ’ wa i t ’ r e a l

. . .

. . .

@DATA0.1313298612447743 ,0 .004041576682790196 ,0 .01774727854659112 ,0 .0035494557093182250.1313298612447743 ,0 .004041576682790196 ,0 .01774727854659112 ,0 .003549455709318 ,00 . 0 , 0 . 0 , 0 . 0 , 0 . 00 . 0 , 0 . 0 , 0 . 0 , 0 . 00 .0 ,0 .014857582309589007 ,0 .0 ,0 .0024848992203904758. . .. . .

� �

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 29: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Que algoritmo de agrupamento utilizar?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 30: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmos para Agrupamento - K-means

K significa o numero de agrupamentos (que deve serinformado a priori).

Sequencia de acoes iterativas.

A parada e baseada em algum criterio de qualidade dosagrupamentos (por exemplo, similaridade media).

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 31: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmo para Agrupamento - K-means

1

2

3

4

5

0

1 2 3 4 5 6 7 8

1

2

3

4

5

0

1 2 3 4 5 6 7 8

1

2

3

4

5

0

1 2 3 4 5 6 7 8

(1) Objetos que devem ser agrupados

1

2

3

4

5

0

1 2 3 4 5 6 7 8

(2) Sorteio dos pontos centrais dos agrupamentos

(3) Atribuição dos objetos aos agrupamentos (4) Definição do centro do agrupamento

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 32: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Weka

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 33: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Caracterısticas e Funcionalidades do Weka

Mais simples que o RapidMiner.

Com menos funcionalidades.

Os operadores podem ser divididos nas seguintes categorias:

Entrada e pre-processamento.Classificacao.Agrupamento.Associacao.Visualizacao.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 34: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Weka

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 35: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Codigo� �

pub l i c AgrupamentoComKMeans ( S t r i n g a r qu i v o ){t r y{

I n s t a n c e s i n s t a n c e s = new I n s t a n c e s (new F i l eR e ad e r ( a r qu i v o ) ) ;/∗∗ Para v i s u a l i z a r os dados do a r qu i v o a r f f∗/

System . out . p r i n t l n ( ” Datase t : ” ) ;System . out . p r i n t l n ( i n s t a n c e s ) ;

/∗∗ U t i l i z a c a o do KMeans∗/

SimpleKMeans kmeans = new SimpleKMeans ( ) ;kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ;/∗∗ Impr imindo in fo rma c a o s ob r e i n s t a n c i a − agrupamento∗/

f o r ( i n t i =0; i<i n s t a n c e s . numIns tances ( ) ; i++){System . out . p r i n t l n ( ”A i n s t a n c i a ”+

i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+” e s t ah no c l u s t e r ”+kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ;

}}catch ( Excep t i on e ){

System . out . p r i n t l n ( e ) ;}

}

� �

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 36: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Resultados

� �A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 1 , 0 . 2 , 0 . 3 , 0 . 1 , 0 . 8 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 3 , 0 . 4 , 0 . 5 , 0 . 8 , 0 . 9 e s t a no c l u s t e r 0A i n s t a n c i a 0 . 3 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 3 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 8 , 0 . 7 , 0 . 8 , 0 . 8 , 0 . 8 e s t a no c l u s t e r 0A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 6 , 0 . 5 , 0 . 6 , 0 . 6 , 0 . 6 e s t a no c l u s t e r 0A i n s t a n c i a 0 . 6 , 0 . 5 , 0 . 6 , 0 . 6 , 0 . 6 e s t a no c l u s t e r 0A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1A i n s t a n c i a 0 . 2 , 0 . 8 , 0 . 8 , 0 . 7 , 0 . 9 e s t a no c l u s t e r 0A i n s t a n c i a 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 , 0 . 1 e s t a no c l u s t e r 1

� �

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 37: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Classificacao e Filtragem de Notıcias

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 38: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Classificacao e Filtragem de Notıcias

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 39: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Conjunto de Exemplos - Atributo/Valor e Classe

Doc. apresent form tecnic caracteriz · · · Relevante

d1 0.33 0.33 0.33 0.33 · · · 1d2 0 0.5 0.2 0.33 · · · 0d3 1 0.6 0 0 · · · 1d4 0.4 0.3 0.33 0.4 · · · 1d5 1 0.4 0.1 0.1 · · · 1dn · · · · · · · · · · · · · · · · · ·

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 40: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Qual e o problema?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 41: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Uma solucao...

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 42: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Classificacao de documentos

Processo de trabalho

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 43: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Recuperacao de Informacao

Recuperacao de Informacao

Como construir sistemas de “busca” sob medida?

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 44: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Recuperacao de Informacao

Recuperacao de Informacao

Como construir sistemas de “busca” sob medida?

Lucene: biblioteca para Recuperacao de Informacao escritaem Java e codigo aberto. Possui: indexador e search engine.

Outras funcionalidades (web crawler e parsing de paginasHTML) sao implementados por outras ferramentas baseadasno Lucene, i.e, Nutch.

Mantido pela Apache Software Foundation.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 45: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Recuperacao de Informacao

Recuperacao de Informacao

Utilizando o Lucene, o desenvolvedor pode alterar a searchengine para ter um mecanismo de busca apropriado para odomınio da sua aplicacao.

Exemplos de alteracoes possıveis:

Expansao da consulta usando uma taxonomia da empresa.Alteracao da funcao de ordenacao (PageRank, BM25,Booleano).Reordenacao dos resultados utilizando informacoes do perfil dousuario.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 46: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Consideracoes

Consideracoes

Todas as fases de um sistema ou componente paratratamento de informacoes podem ser implementadas com asferramentas vistas nesta apresentacao:

Indexacao.Recuperacao.Mineracao (determinacao de padroes).

Com o RapidMiner e Weka e possıvel:

Reutilizar diversos algoritmos necessarios.Prototipar (criar e validar) uma solucao rapidamente.Integrar a solucao criada em outras aplicacoes.

Com o Lucene e possıvel:

Desenvolver um mecanismo de “busca” sob medida.

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 47: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Referencias

Referencias (1/2)

Ian H. Witten, Eibe Frank. Data Mining: Practical MachineLearning Tools and Techniques (Second Edition), 2005.

Weka 3: Data Mining Software in Java(http://www.cs.waikato.ac.nz/ml/weka/index.html).

RapidMiner Community Edition (http://rapid-i.com/).

Christopher D. Manning, Prabhakar Raghavan and HinrichSchutze, Introduction to Information Retrieval, CambridgeUniversity Press. 2008. (http://www-csli.stanford.edu/hinrich/information-retrieval-book.html).

Apache Lucene (http://lucene.apache.org/java/docs/).

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes

Page 48: Ferramentas Java para Recuperação e Mineração de Informações

Sumario Contexto, Problemas e Objetivos Estudo de caso Conceitos, tecnicas e ferramentas Consideracoes e Referencias

Referencias

Referencias (2/2)

Extra: Processamento de Linguagem Natural

GATE, A General Architecture for Text Engineering(http://gate.ac.uk/).

UIMA - Unstructured Information Management Architecture(www.research.ibm.com/UIMA/).

Fabrıcio J. Barth - Just Java 2008 Ferramentas para Recuperacao e Mineracao de Informacoes


Recommended