47
CIn-UFPE 1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

Embed Size (px)

Citation preview

Page 1: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE 1

Recuperação de InformaçãoMineração na Web

Exemplos de Aplicações

Page 2: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

2

Roteiro

Áreas de pesquisa e desenvolvimento relacionadas

Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web

Page 3: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

3

Tarefa típica de RI

Dados Um corpus de documentos (itens de

dados) & Uma consulta do usuário

geralmente representada por palavras-chave

Encontrar Um conjunto ordenados de documentos

que são relevantes para a consulta

Page 4: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

4

Algumas Áreas relacionadas a RI

Bancos de dados Para armazenar os dados a serem recuperados

Inteligência artificial Ontologias e sistemas inteligentes de RI Aprendizagem de máquina

Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc..

Processamento de linguagem natural

Ciência da informação Bibliotecas digitais

Page 5: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

5

Processamento de Linguagem Natural

Algumas regiões de interseção Extração de informação Sistemas Pergunta-resposta E mais alguns métodos de

processamento dos documentos já vistos Análise léxica, Stemming, identificação

de grupos nominais, etc

Page 6: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

6

Exemplos de Sistemas de RI

Sistemas de Busca Sistemas de Automação de Bibliotecas Sistemas de Gerenciamento de Documentos Engenhos de Busca na Web Sistemas de Meta-busca

Sistemas de Pergunta-resposta

Sistemas de Classificação/clustering de documentos

Sistemas de Extração de Informação

Sistemas de Recomendação

Sistemas de Mineração de dados/informação

RI Heterogênea

Page 7: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

7

Exemplos de Agentes na Web

Agentes de filtragem de informação

Agentes notificadores

Agentes de Comércio Eletrônico

Agentes Chatterbots

Page 8: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

8Sistemas de Busca Sistemas de Automação de Bibliotecas

Primeira aplicação na área de RI

Atualmente, a tendência são as bibliotecas digitais RI + BD

Citeseer Scientific Literature Digital Library http://citeseer.ist.psu.edu/

Page 9: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

9

Sistemas de Busca Automação de Bibliotecas (2007-1)

BDCIn: Biblioteca Digital do Centro de Informática Indexação de Trabalhos de Graduação,

Dissertações de Mestrado e Teses de Doutorado do CIn-UFPE

objetivo geral: facilitar a divulgação e o acesso aos

trabalhos científicos produzidos no CIn

Page 10: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

10

Sistemas de BuscaExemplos (2008-1)

TG fácil: um engenho de busca web para trabalhos de graduação do CIn-UFPE Indexação dos TGs pelo conteúdo , não

só por meta-dados

Investment search Base indexada de dados sobre bolsa de

valores notícias atualizadas das principais bolsas

de valores do mundo obtidas a partir de sites da web que

contêm notícias sobre economia

Page 11: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

11

Sistemas de BuscaExemplos (2008-1)

ORKURIOSO Scraps -Troca de mensagens entre

usuários Busca por scraps

Levantamento de opiniões Fiscalização policial Curiosidade

Miss gay... Resultado

Sender - Link Receiver - Link Scrap

Page 12: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

12

Sistemas de Meta-busca

Engenhos de busca São robustos e gerais Porém, retornam uma quantidade muito

grande de documentos irrelevantes

Realizam buscas nas bases de índices de outros sistemas Na Web ou em BDs privados

Recuperação por similaridade Buscam documentos similares ao que o

ususário está visualizando ou editando E.g. GoogleToolbar, Active Search

(CIn), ...

Page 13: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

Sistemas de Meta-busca Exemplo: Active Search

Doc’s Content

Current Doc’s Internal

Representation

Meta-searchQuery

Preparation

Docs Searcher

Query

Web

Local Directories

Documents Bases

Pointers to Documents

Docs’ Pointers

Docs’ Content

Doc. Post-Processor

Docs’ Internal Representatio

n

Ordered List of Docs

Application1

Application2

Application3

Docs Retriever

Docs Reorderer

Document Pre-Processor

Profile Manager

Relevant Documents

User’s Profile

LAN

Page 14: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

14

Sistemas de Pergunta-Resposta

Recuperação de Informação + Processamento de Linguagem Natural Recebem como entrada uma pergunta em

linguagem natural Retornam como saída a resposta (curta) ao

invés de uma lista de documentos Utilizando também técnicas de Extração de

Informação

Exemplo: P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube

Page 15: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

15Sistemas de Pergunta-RespostaArquitetura Genérica

Page 16: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

16

Sistemas de Pergunta-Resposta Exemplo: Pergunte!

Motivação A Web é o maior repositório de

informações já construído Necessidade de informação melhor

representada sob forma de pergunta Sistemas negligenciam a semântica da

pergunta e dos documentos

Sistema Pergunte! Uma interface em Português para

pergunta-resposta na Web Mestrado de Juliano Rabelo, 2004

Page 17: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

17

Sistemas de Pergunta-Resposta Exemplo (2007-1)

Q & A: sistema de pergunta-resposta Restrito a perguntas do tipo “Quem”, “Onde” e

“Quando” Utiliza uma base de dados local

Page 18: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

18Classificação e Clustering de documentos

Classificação - Objetivo Classificar documentos de acordo com

um conjunto ou hierarquia de categorias previamente definidas

Clustering – Objetivo Agrupar documentos semelhantes em

classes não conhecidas a priori

Page 19: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

19

Classificação de documentos

Algumas aplicações: Recomendação Alimentar hierarquias de classes, como a do

Yahoo, para facilitar a busca Criação de repositórios de domínio específico Distribuição de Notícias

Jornal personalizado Mensagem de Email e Newsgroups

Filtragem de spam Routing Atribuição de prioridades Seleção de folders

Page 20: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

20Classificação de documentos Exemplo: Sistema CitationFinder

Classificação automática de páginas de publicações científicas Mestrado de Mariana Lara Neves, 2001

Objetivo Criação e manutenção de um repositório de

documentos desse domínio Para alimentar o sistema Prodext

Construção manual: Bases de conhecimento com regras de produção Máquina de inferência (JEOPS)

Page 21: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

21

Classificação de documentos Exemplo 2007-1

Classificação de Websites http://rdf.dmoz.org

documento xml com diversos links e sua descrição e classificação

Domínio específico de “games”.

Conclusão: A descrição dos sites é muito breve para

obtermos um bom resultado com classificadores automáticos

Page 22: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

22

Clustering de documentos

Aplicações Criar taxonomias (hierarquias de

classes) para browsing de documentos em uma coleção

Agrupar resultados de consultas a engenhos de busca ou outros sistemas de RI

Técnicas Aprendizado não supervisionado

Page 23: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

23

Clustering de documentosExemplos

(2008-1) Clusering aplicado à base Iris Data Set

(2007-1) Domme: Domestic Mesh Engine Engenho de Busca e Agrupamento de

Documentos na Intranet do CIn recuperação eficiente dos documentos da

intranet do Cin

Page 24: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

24

Clustering de documentosExemplo 2007-1

Indexação e clustering & Busca na Web

Objetivo Facilitar a busca de material de estudo

(apostilas, tutoriais, aulas) na Web sobre um tema específico (e.g., Biologia 2º grau)

Com base no conteúdo de questões previamente cadastradas no sistema

Page 25: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

25

Clustering de documentos

Exemplo 2007-1

Agrupa perguntas de vestibular sobre um mesmo

tema

Questões de Biologia QuestionProcessor

TermFrequencyPreClustering

ClusterHandlerWEKA

TermFrequencyQuery

Links de docuementos

Page 26: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

26

Clustering de documentosExemplo 2007-1

Page 27: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

27Sistemas de Extração de Informação

Sistemas capazes de extrair de documentos relevantes apenas a informação requerida

A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.

Sistema de EI

BD

Nome:End.:Fone:Fax:Preços:

Template

BC

Página de Hotel

Page 28: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

28

Sistemas de Extração de Informação

Exemplo: O ProdExt

ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas Mestrado de Carla Nunes, 2000

Abordagem utilizada Construção manual de base de regras

Autor: A.V.Garcia and A. HaebererTítulo: An Architecture for Semantically Based Code MigrationVeículo: In Proc. of the II Brazilian Symp. on Progr. LanguagesPáginas: pp 179-192 Data: Sept/1997Local: Campinas, Brasil

A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil.

Page 29: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

29

Exemplo: EI utilizando Aprendizagem de Máquina

Mestrado de Eduardo Amaral

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

d ivisã o e m fra g m e nto s

c la ssific a ç ã o

e xtra ç ã o d e c a ra c te rístic a s

fra g m e nto 1

fra g m e nto 1

fra g m e nto 2

fra g m e nto 2

fra g m e nto 3

fra g m e nto 3

fra g m e nto 4

fra g m e nto 4

130

10

041

20

152

13

2325

títu lo c o nfe rê nc ia d a taa uto r

a uto r, títu lo , c o nfe rê nc ia , d a ta

HM M

Fa se 1

Fa se 2

Sistemas de Extração de Informação

Page 30: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

30Sistemas de Extração de Informação

Exemplos (2008-1)

Extração de anúncios de vendas de carro do JC Online Os templates gerados forma indexados

pelo Lucene, para facilitar a consulta do usuário.

Page 31: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

31

Mineração de Opiniões

Análise de Sentimentos Sentiment analysis

Objetivo Prover tratamento automático de

opiniões/sentimentos Trata a subjetividade do texto

Opiniões são extraídas a partir de Sites de opiniões Sites de lojas Blogs Foruns…

Page 32: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

32

Mineração de Opiniões

Desafio identificar trechos dos textos que expressam

sentimentos/opiniões indicar se uma opinião é positiva (favorável) ou

negativa (desfavorável) em relação ao item sendo abordado

Utiliza técnicas de RI e processamento de linguagem natural

Page 33: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

33

Mineração de Opiniões

Base de Textos

Engenho de Busca

Opinion holders

Usuário final

Extraçãode Opiniões

Classificação de

Sentimento

Sumarização

Interface

Consulta(Objeto)

Textos

Textos retornados

Opiniões

Opiniões +sentimento

Sumário

Page 34: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

34Mineração de dados em Redes sociais

Objetivos Explorar o conhecimento coletivo e implícito,

descobrir padrões e regras de associação, prever tendências e a evolução da rede

Utiliza técnicas de mineração de dados e grafos

aliados a técnicas Aprendizagem de Máquina e

técnicas de visualização das redes

Page 35: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

35

Mineração de dados em Redes sociais Tarefas

Ranking de nós Importância, centralidade ou o poder de

influência de nós (grau, intermediação, proximidade,...)

Classificação baseada em Links Categorizar um nó considerando os

relacionamentos com outros nós

Predição de Links Prever a interação entre dois nós num futuro

próximo baseado na estrutura da rede

Agrupamento de nós Detectar grupos ou comunidades

Page 36: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

36

Sistemas de Personalização

São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário Utilizam profiles

Sistemas de personalização incluem: Recomendação Filtragem Predição

Page 37: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

37

Sistemas de Recomendação

Recomendam itens para usuários com base em suas preferências livros, filmes, CDs, páginas web, mensagens de

newsgroup

Exemplos de sistemas Lojas virtuais oferecem esse serviço para

aumentar as vendas e.g. Amazon, CDNow

Existem duas abordagens básicas par recomendação: Filtragem colaborativa (um tipo de filtragem

social) Recomendação baseada em conteúdo

Page 38: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

38

Sistema de RecomendaçãoExemplo 2007-1

ACoReS: Amadeus Course Recommendation System indica cursos aos usuários com base na identificação de padrões de

comportamento desses usuários em relação ao sistema Observa o histórico de cursos nos quais

os alunos se matricularam

Page 39: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

39

Integração de Informação

Pergunta-resposta + Extração de informação

Objetivo Integrar automaticamente diversos Web sites para responder a determinadas perguntas do

usuário cuja resposta não está disponível em um site único

Para cada site selecionado, um wrapper é construído

Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados que podem ser consultadas usando-se uma query

language (e.g. SQL).

Page 40: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

40Integração de Informação

Exemplo (2007-1)

LOGO: Sistema Integrado para Busca de Passagens Aéreas OnLine Extração de

informação + Integração de

informação

Page 41: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

41

Mais sistemas e aplicações

Sistemas de mineração de dados/informação

Sistemas de gerenciamento de documentos

Page 42: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

42

RI Heterogênea

Sistemas de Recuperação multi-língua Recebem a entrada em uma língua e

devolvem a saída em outra língua

Busca de partituras musicais ou cifras

Busca de padrões de exames médicos Eletrocardiogramas, …

Page 43: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

43

Agentes de Informação

Fazem mais do que só RI, pois podem: Comunicar-se Cooperar Negociar

Aplicações: Comércio eletrônico Leilões/licitações Etc……………..

Page 44: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

44

Agentes de Informação

Agentes Notificadores Enviam emails para o usuário de acordo

com seus interesses

Agentes de Comércio Eletrônico Capazes de representar o usuário em

compras na Web

Agentes Chatterbots Capazes de dialogar com os usuários em

linguagem natural restrita

Page 45: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

45

Agentes Chatterbots

Chatterbots Sistemas capazes de dialogar com os usuários

em linguagem natural restrita E.g., Eliza, ALICE

Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta

Esses agentes também podem ser usados como interfaces em linguagem natural para Bancos de dados Bases de conhecimento Sites na web

Page 46: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

CIn-UFPE

46

Agentes Chatterbots

Exemplo de bot na Web - Pixel http://www.virtus.ufpe.br/pixel Tese de doutorado de André Neves

Utiliza a linguagem AILM Criação de novas tags para descrever o

nível pragmático dos diálogos com chatterbots

Page 47: CIn-UFPE1 Recuperação de Informação Mineração na Web Exemplos de Aplicações

Próxima aula

CIn-UFPE

47