44
CIn-UFPE 1 Recuperação Inteligente de Informação Exemplos de Aplicações

Recuperação Inteligente de Informação

  • Upload
    affrica

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

Recuperação Inteligente de Informação. Exemplos de Aplicações. Roteiro. Áreas de pesquisa e desenvolvimento relacionadas Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web. Tarefa típica de RI. Dados Um corpus de documentos (itens de dados) & Uma consulta do usuário - PowerPoint PPT Presentation

Citation preview

Page 1: Recuperação Inteligente de Informação

CIn-UFPE 1

Recuperação Inteligente de Informação

Exemplos de Aplicações

Page 2: Recuperação Inteligente de Informação

CIn-UFPE

2

Roteiro

Áreas de pesquisa e desenvolvimento relacionadas

Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web

Page 3: Recuperação Inteligente de Informação

CIn-UFPE

3

Tarefa típica de RI

Dados Um corpus de documentos (itens de

dados) & Uma consulta do usuário

geralmente representada por palavras-chave

Encontrar Um conjunto ordenados de documentos

que são relevantes para a consulta

Page 4: Recuperação Inteligente de Informação

CIn-UFPE

4

Algumas Áreas relacionadas a RI

Ciência da informação Bibliotecas digitais

Bancos de dados Para armazenar os dados a serem recuperados

Inteligência artificial Ontologias e sistemas inteligentes de RI Aprendizagem de máquina

Classificação e clustering de documentos, criação e manutenção de perfil do usuário, extração de informação, mineração de texto, etc..

Processamento de linguagem natural

Page 5: Recuperação Inteligente de Informação

CIn-UFPE

5

Algumas Áreas relacionadas a RI

Processamento de Linguagem Natural Algumas “regiões” de interseção

Sistemas Pergunta-resposta Extração de informação

Regras para identificar ocorrência de palavras que pertencem a uma dada classe gramatical (via uso de POS-taggers)

E alguns métodos de pré-processamento dos documentos

Análise léxica, Stemming, identificação de grupos nominais, POS-tagging, etc

Page 6: Recuperação Inteligente de Informação

CIn-UFPE

6

Exemplos de Sistemas de RI

Sistemas de Busca Sistemas de Automação de Bibliotecas Sistemas de Gerenciamento de Documentos Engenhos de Busca na Web Sistemas de Meta-busca

Sistemas de Pergunta-resposta

Sistemas de Classificação/clustering de documentos

Sistemas de Extração de Informação

Sistemas de Recomendação

Sistemas de Mineração de dados/informação

RI Heterogênea

Page 7: Recuperação Inteligente de Informação

CIn-UFPE

7Exemplos de Agentes de RI na Web

Agentes de filtragem de informação

Agentes notificadores

Agentes de Comércio Eletrônico

Agentes Chatterbots

Page 8: Recuperação Inteligente de Informação

CIn-UFPE

8Sistemas de Busca Sistemas de Automação de Bibliotecas

Primeira aplicação na área de RI

Atualmente, a tendência são as bibliotecas digitais RI + BD

Citeseer Scientific Literature Digital Library http://citeseer.ist.psu.edu/

Page 9: Recuperação Inteligente de Informação

CIn-UFPE

9

Sistemas de Busca Automação de Bibliotecas (2007-1)

BDCIn: Biblioteca Digital do Centro de Informática Indexação de Trabalhos de Graduação,

Dissertações de Mestrado e Teses de Doutorado do CIn-UFPE

objetivo geral: facilitar a divulgação e o acesso aos

trabalhos científicos produzidos no CIn

Page 10: Recuperação Inteligente de Informação

CIn-UFPE

10

Sistemas de BuscaExemplos (2008-1)

TG fácil: um engenho de busca web para trabalhos de graduação do CIn-UFPE Indexação dos TGs pelo conteúdo , não

só por meta-dados

Investment search Base indexada de dados sobre bolsa de

valores notícias atualizadas das principais bolsas

de valores do mundo obtidas a partir de sites da web que

contêm notícias sobre economia

Page 11: Recuperação Inteligente de Informação

CIn-UFPE

11

Sistemas de BuscaExemplos (2008-1)

ORKURIOSO Scraps -Troca de mensagens entre

usuários Busca por scraps

Levantamento de opiniões Fiscalização policial Curiosidade

Miss gay... Resultado

Sender - Link Receiver - Link Scrap

Page 12: Recuperação Inteligente de Informação

CIn-UFPE

12

Sistemas de Meta-busca

Engenhos de busca São robustos e gerais Porém, retornam uma quantidade muito

grande de documentos irrelevantes

Realizam buscas nas bases de índices de outros sistemas Na Web ou em BDs privados

Recuperação por similaridade Buscam documentos similares ao que o

ususário está visualizando ou editando E.g. GoogleToolbar, Active Search

(CIn), ...

Page 13: Recuperação Inteligente de Informação

Sistemas de Meta-busca Exemplo: Active Search

Doc’s Content

Current Doc’s Internal

Representation

Meta-searchQuery

Preparation

Docs Searcher

Query

Web

Local Directories

Documents Bases

Pointers to Documents

Docs’ Pointers

Docs’ Content

Doc. Post-Processor

Docs’ Internal Representatio

n

Ordered List of Docs

Application1

Application2

Application3

Docs Retriever

Docs Reorderer

Document Pre-Processor

Profile Manager

Relevant Documents

User’s Profile

LAN

Page 14: Recuperação Inteligente de Informação

CIn-UFPE

14

Sistemas de Pergunta-Resposta

Recuperação de Informação + Processamento de Linguagem Natural Recebem como entrada uma pergunta em

linguagem natural Retornam como saída a resposta (curta) ao

invés de uma lista de documentos Utilizando também técnicas de Extração de

Informação

Exemplo: P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube

Page 15: Recuperação Inteligente de Informação

CIn-UFPE

15Sistemas de Pergunta-RespostaArquitetura Genérica

Page 16: Recuperação Inteligente de Informação

CIn-UFPE

16

Sistemas de Pergunta-Resposta Exemplo: Pergunte!

Motivação A Web é o maior repositório de

informações já construído Necessidade de informação melhor

representada sob forma de pergunta Sistemas negligenciam a semântica da

pergunta e dos documentos

Sistema Pergunte! Uma interface em Português para

pergunta-resposta na Web Mestrado de Juliano Rabelo, 2004

Page 17: Recuperação Inteligente de Informação

CIn-UFPE

17

Sistemas de Pergunta-Resposta Exemplo (2007-1)

Q & A: sistema de pergunta-resposta Restrito a perguntas do tipo “Quem”, “Onde” e

“Quando” Utiliza uma base de dados local

Page 18: Recuperação Inteligente de Informação

CIn-UFPE

18Classificação e Clustering de documentos

Classificação - Objetivo Classificar documentos de acordo com

um conjunto ou hierarquia de categorias previamente definidas

Clustering – Objetivo Agrupar documentos semelhantes em

classes não conhecidas a priori

Page 19: Recuperação Inteligente de Informação

CIn-UFPE

19

Classificação de documentos

Algumas aplicações: Recomendação Alimentar hierarquias de classes, como a do

Yahoo, para facilitar a busca Criação de repositórios de domínio específico Distribuição de Notícias

Jornal personalizado Mensagem de Email e Newsgroups

Filtragem de spam Routing Atribuição de prioridades Seleção de folders

Page 20: Recuperação Inteligente de Informação

CIn-UFPE

20Classificação de documentos Exemplo: Sistema CitationFinder

Classificação automática de páginas de publicações científicas Mestrado de Mariana Lara Neves, 2001

Objetivo Criação e manutenção de um repositório de

documentos desse domínio Para alimentar o sistema Prodext

Construção manual: Bases de conhecimento com regras de produção Máquina de inferência (JEOPS)

Page 21: Recuperação Inteligente de Informação

CIn-UFPE

21

Classificação de documentos Exemplo 2007-1

Classificação de Websites http://rdf.dmoz.org

documento xml com diversos links e sua descrição e classificação

Domínio específico de “games”.

Conclusão: A descrição dos sites é muito breve para

obtermos um bom resultado com classificadores automáticos

Page 22: Recuperação Inteligente de Informação

CIn-UFPE

22

Clustering de documentos

Aplicações Criar taxonomias (hierarquias de

classes) para browsing de documentos em uma coleção

Agrupar resultados de consultas a engenhos de busca ou outros sistemas de RI

Técnicas Aprendizado não supervisionado

Page 23: Recuperação Inteligente de Informação

CIn-UFPE

23

Clustering de documentosExemplos

(2008-1) Clusering aplicado à base Iris Data Set

(2007-1) Domme: Domestic Mesh Engine Engenho de Busca e Agrupamento de

Documentos na Intranet do CIn recuperação eficiente dos documentos da

intranet do Cin

Page 24: Recuperação Inteligente de Informação

CIn-UFPE

24

Clustering de documentosExemplo 2007-1

Indexação e clustering & Busca na Web

Objetivo Facilitar a busca de material de estudo

(apostilas, tutoriais, aulas) na Web sobre um tema específico (e.g., Biologia 2º grau)

Com base no conteúdo de questões previamente cadastradas no sistema

Page 25: Recuperação Inteligente de Informação

CIn-UFPE

25

Clustering de documentos

Exemplo 2007-1

Agrupa perguntas de vestibular sobre um mesmo

tema

Questões de Biologia QuestionProcessor

TermFrequencyPreClustering

ClusterHandlerWEKA

TermFrequencyQuery

Links de docuementos

Page 26: Recuperação Inteligente de Informação

CIn-UFPE

26Sistemas de Extração de Informação

Sistemas capazes de extrair de documentos relevantes apenas a informação requerida

A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.

Sistema de EI

BD

Nome:End.:Fone:Fax:Preços:

Template

BC

Página de Hotel

Page 27: Recuperação Inteligente de Informação

CIn-UFPE

27

Sistemas de Extração de Informação

Exemplo: O ProdExt

ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas Mestrado de Carla Nunes, 2000

Abordagem utilizada Construção manual de base de regras

Autor: A.V.Garcia and A. HaebererTítulo: An Architecture for Semantically Based Code MigrationVeículo: In Proc. of the II Brazilian Symp. on Progr. LanguagesPáginas: pp 179-192 Data: Sept/1997Local: Campinas, Brasil

A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil.

Page 28: Recuperação Inteligente de Informação

CIn-UFPE

28

Exemplo: EI utilizando Aprendizagem de Máquina

Mestrado de Eduardo Amaral 2004

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .

d ivisã o e m fra g m e nto s

c la ssific a ç ã o

e xtra ç ã o d e c a ra c te rístic a s

fra g m e nto 1

fra g m e nto 1

fra g m e nto 2

fra g m e nto 2

fra g m e nto 3

fra g m e nto 3

fra g m e nto 4

fra g m e nto 4

130

10

041

20

152

13

2325

títu lo c o nfe rê nc ia d a taa uto r

a uto r, títu lo , c o nfe rê nc ia , d a ta

HM M

Fa se 1

Fa se 2

Sistemas de Extração de Informação

Page 29: Recuperação Inteligente de Informação

CIn-UFPE

29Sistemas de Extração de Informação

Exemplos 2008-1

Extração de anúncios de vendas de carro do JC Online Os templates gerados forma indexados

pelo Lucene, para facilitar a consulta do usuário.

Page 30: Recuperação Inteligente de Informação

CIn-UFPE

30

Mineração de Opiniões

Análise de Sentimentos Sentiment analysis

Objetivo Prover tratamento automático de

opiniões/sentimentos Trata a subjetividade do texto

Opiniões são extraídas a partir de Sites de opiniões Sites de lojas Blogs Foruns…

Page 31: Recuperação Inteligente de Informação

CIn-UFPE

31

Mineração de Opiniões

Desafio identificar trechos dos textos que expressam

sentimentos/opiniões indicar se uma opinião é positiva (favorável) ou

negativa (desfavorável) em relação ao item sendo abordado

Utiliza técnicas de RI e processamento de linguagem natural

Page 32: Recuperação Inteligente de Informação

CIn-UFPE

32

Mineração de Opiniões

Base de Textos

Engenho de Busca

Opinion holders

Usuário final

Identificação de

subjetividade

Interface

Consulta

Textos

Textos retornados

Opiniões

Opiniões +sentimento

Sumário

Sumarização

Classificação de Sentimento

Extração de características

Page 33: Recuperação Inteligente de Informação

CIn-UFPE

33

Sistemas de Personalização

São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário Utilizam profiles

Sistemas de personalização incluem: Recomendação Filtragem Predição

Page 34: Recuperação Inteligente de Informação

CIn-UFPE

34

Sistemas de Recomendação

Recomendam itens para usuários com base em suas preferências livros, filmes, CDs, páginas web, mensagens de

newsgroup

Exemplos de sistemas Lojas virtuais oferecem esse serviço para

aumentar as vendas e.g. Amazon, CDNow

Existem duas abordagens básicas par recomendação: Filtragem colaborativa (um tipo de filtragem

social) Recomendação baseada em conteúdo

Page 35: Recuperação Inteligente de Informação

CIn-UFPE

35

Sistema de RecomendaçãoExemplo 2007-1

ACoReS: Amadeus Course Recommendation System indica cursos aos usuários com base na identificação de padrões de

comportamento desses usuários em relação ao sistema Observa o histórico de cursos nos quais

os alunos se matricularam

Page 36: Recuperação Inteligente de Informação

CIn-UFPE

36

Integração de Informação

Pergunta-resposta + Extração de informação

Objetivo Integrar automaticamente diversos Web sites para responder a determinadas perguntas do

usuário cuja resposta não está disponível em um site único

Para cada site selecionado, um wrapper é construído

Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados que podem ser consultadas usando-se uma query

language (e.g. SQL).

Page 37: Recuperação Inteligente de Informação

CIn-UFPE

37Integração de Informação

Exemplo (2007-1)

LOGO: Sistema Integrado para Busca de Passagens Aéreas OnLine Extração de

informação + Integração de

informação

Page 38: Recuperação Inteligente de Informação

CIn-UFPE

38

Mais sistemas e aplicações

Sistemas de mineração de dados/informação

Sistemas de gerenciamento de documentos

Page 39: Recuperação Inteligente de Informação

CIn-UFPE

39

RI Heterogênea

Sistemas de Recuperação multi-língua Recebem a entrada em uma língua e

devolvem a saída em outra língua

Busca de partituras musicais ou cifras

Busca de padrões de exames médicos Eletrocardiogramas, …

Page 40: Recuperação Inteligente de Informação

CIn-UFPE

40

Agentes de Informação

Fazem mais do que só RI, pois podem: Comunicar-se Cooperar Negociar

Aplicações: Comércio eletrônico Leilões/licitações Etc……………..

Page 41: Recuperação Inteligente de Informação

CIn-UFPE

41

Agentes de Informação

Agentes Notificadores Enviam emails para o usuário de acordo

com seus interesses

Agentes de Comércio Eletrônico Capazes de representar o usuário em

compras na Web

Agentes Chatterbots Capazes de dialogar com os usuários em

linguagem natural restrita

Page 42: Recuperação Inteligente de Informação

CIn-UFPE

42

Agentes Chatterbots

Chatterbots Sistemas capazes de dialogar com os usuários

em linguagem natural restrita E.g., Eliza, ALICE

Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta

Esses agentes também podem ser usados como interfaces em linguagem natural para Bancos de dados Bases de conhecimento Sites na web

Page 43: Recuperação Inteligente de Informação

CIn-UFPE

43

Agentes Chatterbots

Exemplo de bot na Web - Pixel http://www.virtus.ufpe.br/pixel Tese de doutorado de André Neves

Utiliza a linguagem AILM Criação de novas tags para descrever o

nível pragmático dos diálogos com chatterbots

Page 44: Recuperação Inteligente de Informação

Próxima aula

Preparação de documentos

CIn-UFPE

44