Agentes em Recuperação da Informação

Preview:

DESCRIPTION

Agentes em Recuperação da Informação. Equipe. Daniel Penaforte (dap4) Daniel Julião (dvsj) Davi Pires (dpr) Ernani Azevedo (ema3) Everton Marques (egm2) Farley Millano ( XXXXXXXXXX ) Guilherme Carvalho (ggc) Guilherme Moura (gsm) Nitai Bezerra (nbs) Pedro Montenegro (pmr). Roteiro. - PowerPoint PPT Presentation

Citation preview

Agentes em Recuperação da Informação

Equipe

Daniel Penaforte (dap4) Daniel Julião (dvsj) Davi Pires (dpr) Ernani Azevedo (ema3) Everton Marques (egm2) Farley Millano (XXXXXXXXXX) Guilherme Carvalho (ggc) Guilherme Moura (gsm) Nitai Bezerra (nbs) Pedro Montenegro (pmr)

Roteiro

Introdução a RI Papel dos Agentes em RI Agentes na WEB

Recomendação Filtragem Notificadores E-commerce Chatterbots

“Morrendo ignorante num mar de informações”

- Dificuldade de localizar documentos relevantes !!

Como funciona?

Web Pages 1870 found.

Usuário

Necessidade deInformação

CasamentoCasamento

Documento

s

IndexaçãoConsultaRepresentação

Formulação

Recuperação de Informação Motivação

Tarefa típica de Recuperação de Informação (RI)

Dados Um corpus de documentos (itens de

dados) & Uma consulta do usuário (representada por

palavras-chave) Encontrar

Um conjunto ordenados de documentos que são relevantes para a consulta

Sistemas de RI

Sistema de RIConsulta

Corpus de documentos

Documentos ordenados

1. Doc12. Doc23. Doc3 . .

Usuário

Recuperação de InformaçãoDefinição

Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o

armazenamento, a busca e a recuperação de itens de informação

Objetivo principal facilitar o acesso a documentos (itens de

informação) relevantes à necessidade de informação do usuário

Geralmente representada através de consultas baseadas em palavras-chaves

Papel dos Agentes em RI(A Internet)

Informações diversificadas Usuários diversificados Desafios

informação aos usuários não-técnicos; libertar os usuários das tarefas

repetitivas da WEB; envio de informações relevantes aos

usuários. Formato, Conteúdo.

Papel dos Agentes em RI(Motivação)

Rápido crescimento do volume de informações disponível na Internet

Velocidade em encontrar informação é diferencial competitivo

Dificuldade em localizar documentos relevantes Alto consumo de tempo Síndrome da Nau perdida

TOO MUCH INFORMATION = NO INFORMATION

Agentes na Web

Objetivos: Obter uma quantidade de informações

razoável ao usuário. Trazer as informações que

correspondam ao perfil e necessidade do usuário.

Fazer com que estas informações sejam de qualidade.

Agentes em Sistemas de Recomendação

Recomendam itens de informação ao usuário de acordo com o seu perfil

Exemplos WebMate Letizia InfoAgent

Agente de busca pessoal (assistente digital).

Acompanha o usuário enquanto ele navega na Internet: Recomenda novas URLs; Oferece os documentos web mais relevantes; Responde ao feedback do usuário; Compila um jornal pessoal diário com links

para documentos de interesse do usuário.

WebMate 1/5

A arquitetura do WebMate consiste em: um proxy autônomo que monitora as ações

do usuário; um controlador applet que interage com o

usuário.

WebMate 2/5

WebMate 3/5

WebMate 4/5

WebMate 5/5

H.Lieberman-MIT. Imita o comportamento do usuário,

baseado em preferência, não em relevância.

Segue o usuário e tenta antecipar o que é de interesse, com heurísticas simples e metas.

HP dinâmica e acessível, com sugestões. Aproveita o tempo inútil e é ético.

Letizia 1/3

Behavior-BR - justificativas Interesse: seguir um link ou revisitá-lo, ou

acessar muitas páginas sobre um assunto.

Desinteresse: desprezar um link ou retornar.

Persistência de interesse e “esquecimento”.

Achados ao acaso: tenta descobrir interesses não-óbvios.

Letizia 2/3

Letizia 3/3

Info Agent 1/4

Info Agent é composto de 3 componentes principais: Webwatcher SearchEngine UI Bookmark Manager

Info Agent 2/4

Webwatcher Procura por alterações em páginas web Avisa ao usuário sobre tais alterações Pode ser configurado da maneira

desejada.

SearchEngine UI SearchEngine Dmoz searchAndBrowse:

'Squeak‘ SearchEngine Dmoz searchAndManage:

'Squeak‘ Varre os resultados da Busca por URLs

e insere no Bookmark Manager

Info Agent 3/4

Info Agent 4/4

Bookmark Manager Documentos do WebWatcher:

“Webwatched Documents” Documentos resultantes de buscas:

“Search Results”

Agentes em Sistemas de Filtragem Motivações

Crescimento do volume de informações em ambientes distribuídos Dificuldade em localizar documentos relevantes Consumo de tempo

Ferramentas que automatizam a recuperação de informações

Introdução

Definição

Agentes que filtram colhem informações de várias fontes e selecionam documentos baseados em determinados critérios

Existem vários exemplos de filtragem de informações Foco em Informações na Internet

Mail News

Filtragem

BIndex ...

Técnica de Representação de Textos

Extração de conceitos importantes em documentos Heurística de frequência de palavras EX: Term Frequency-Inverse Document

Frequency (TFIDF)Fórmula:

TFIDF(W) = TF(W) * log |D|/ DF(W)onde |D| é o número total de documentos do conjunto

Maior frequência no documento e rara presença nos outros indica maior relevância

Palavras com maiores pesos são selecionadas formando um vetor de representação do documento

EXEMPLOS

BORGES ( A . F. SMEATON , 1996 ) Usuário especifica palavras ou frases

Destaca palavras polisemânticas, mostrando significados alternativos, para que o usuário escolha

O sistema expande o perfil do usuário, incluindo termos relacionados

EXEMPLOS

WebWatcher (http://cs.cmu.edu/afs/Web/People/webwatcher) Usuário especifica palavras-chaves

Duas páginas estão relacionadas, se alguma terceira página apontar para ambas

O algoritmo usa “informação mútua” como uma medida de similaridade para comparar links

EXEMPLOS

LAW (D. Bayer, 1995) Monitora ações do usuário (bookmarking,

impressão de páginas, etc...)

Características dos documentos Modelar o perfil do usuário

Um robô autônomo busca páginas relevantes, de acordo com este perfil

EXEMPLOS SAMURAI (H. Leong, S. Kapur, O de Vel, 1997)

É composto de 5 módulos: – Sumarização do texto– Monitoração e modelagem do usuário– Máquina de busca– Filtragem de links – Compilação dos resultados

WEBSOM (http://websom.hut.fi/websom/) SYSKILL (http://www.ics.uci.edu/pazzani/Syskill.html)

EXEMPLOS

Bullseye Desktop software Utiliza cerca de 600 search engines

NewsHound Busca notícias de diversos jornais a partir do

perfil do usuário. Envia estas informações através de e-mail ou

páginas html. Utiliza critérios de relevância.

EXEMPLOS NewsWeeder (uso experimental Carnegie Mellon

University) Usuário visita cada NewsGroup e avalia artigos

com notas de 1 a 5 Perfil do usuário a partir das notas 50 melhores artigos selecionados de acordo com

seu perfil A classificação Técnicas de medidas de

similaridade

EXEMPLOS Pefna (Universidade de Estocolmo - Kilander)

Categorias em ordem de importância

Bom exemplo da categoria é assinalado para seu treinamento

Categoria pode conter um ou mais exemplos

Comparação Medidas de similaridade com categorias existentes

Notificadores WEB

Serviço automático ativado por algum evento ocorrido dentro de um critério;

Critérios são geralmente definidos por termos;

Agentes enviam mensagens (e-mail, SMS...) para usuários registrados;

Como funcionam?

Trabalham em conjunto com outro serviço de informação

Acionado quando o critério é atingido Exemplos:

Google Alert ChangeDetect

Google Alert 1/2

Cadastra termos de busca no google Classificação:

News (Artigos) Web (Internet “top20”) News and Web (Artigos e Internet

“top20”) Groups (Google Groups)

Envia e-mail quando o termo combina com novos resultados

Google Alert 2/2

Forma ‘Google’ de criar e gerenciar as entradas Simples Intuitivo

ChangeDetect 1/3

Notifica sobre modificações em páginas cadastradas para usuários;

Destaca as modificações nas páginas por códigos de cor;

Muito “completo”: detecções constantes ou programadas filtragem extra categorias personalizadas várias formas de notificação detecta modificações em vários formatos de

arquivo

ChangeDetect 2/3

É extremamente configurável pode ser um problema...

ChangeDetect 3/3

Automatizar parte do processo -> economia Comparar produtos de diferentes

vendedores Quão fácil é expressar suas

preferências para a tarefa? Comprar um presente

Decisões sub-ótimas -> riscos Comprar um carro, vender e comprar

ações

Agentes em Sistemas de E-Commerce

Consumer Buying Behaviour

Identificação da necessidade Busca pelo produto Busca pelo vendedor Negociação Compra e entrega Avaliação

Estágios “agent-centric”!

Tecnologias

Sistemas de recomendação Filtragem baseada em conteúdo Filtragem colaborativa Filtragem baseada em restrições

Negociação Constraint Satisfaction Problem Teoria da utilidade multi-atributo

Fornecer nova informação que possa motivar o usuário a comprar algo.

Filtragem Resolução de constraints Filtragem colaborativa

Agentes monitores

Identificação da Necessidade

Definir "o que" comprar "Serendipity“ Estratégia

Resolução de constraints Filtragem colaborativa Função de utilidade multi-atributo

Escolha do produto

Definir "de quem" comprar Consultar vários sites de vendas on-

line Dificuldade: criar "wrappers" para cada

site Solução: Web Semântica = XML + RDF +

OWL

Exemplo BargainFinder Jango Tete-a-tete

Escolha do Vendedor

Tecnologias Constraint Satisfaction Problem Teoria da utilidade multi-atributo Leilões

Exemplos: Kasbah AuctionBot Tete-a-tete

Negociação

Chatterbots

Sistemas capazes de dialogar com os usuários em linguagem natural restrita

Agentes inteligentes Simular uma conversa Troca de mensagens de texto

Tornar mais familiar a interação entre o homem e a máquina Impressão de que o computador possui uma

personalidade

Exemplos de Aplicações

Uma “recepcionista” em um site comercial

Responder a FAQs (Frequently Asked Questions)

Atuar na área educacional dando suporte ao estudo e pesquisa

Entretenimento

Exemplo de Diálogo

Vendedor: “Olá! O que você está procurando?”

Usuário: “Um notebook para meu negócio de consultoria.”

Vendedor: “Por favor descreva se você tem alguma restrição de preços.”

Usuário: “Não é muito importante. Estou interessado em alta performance.”

Vendedor: “Você está procurando algum notebook topo-de-linha?”

Usuário: “Sim, exatamente!”

Vendedor: “Acredito que temos o produto certo para você. Clique aqui para ver o MacBook Pro 2.16Ghz”

Frases são entendidas através dos padrões

A resposta do chatterbot depende do padrão que casou a frase

Como chatterbots são implementados

Artificial Inteligence Markup Language (AIML)

Linguagem de marcação utilizada para: Definir os padrões compreendidos pelo

chatterbot Definir as réplicas de cada padrão

<category> <pattern>Olá</pattern> <template>

Olá, usuário </template></category>

Elementos Category: Unidade básica Pattern: Padrão de

entrada Template: Resposta do

chatterbot

Arquitetura

Session LogPadrões de Conversação

ChatterBot

Usuário

Casamento de padrões Raciocínio baseado em casos

Comportamento dos Bots

Iniciativa através de questionamento Partes da pergunta na resposta Manter o diálogo em um mesmo

tópico pelo maior tempo possível Iniciar novo tópico em diálogos

repetitivos Comentários humorísticos ou

controversos sobre tópico

Perguntas, Dúvidas ou Ressentimentos ????????????

Referências Bibliográficas

Gleaning Information from the Web: Using Syntax to Filter out Irrelevant Information, R. Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA 19104;

Text Summarisatio for Knowledge Filtering Agents in Distributed Heterogeneous Environments, H. Leong, S. Kapur, O de Vel, James Cook University of North Queensland, Austrália;

A Brief Comparison of News Filtering Software, Fredrik Kilander, Stockholm University, Sweden;

Learning Rules that Classify E-Mail, William W. Cohen, AT&T Laboratories;

Referências Bibliográficas

Agent Sourcebook, Alper K. Caglayan e Colin G. Harrison;

Message Classification and Filtering, Fredrik Kilander, Stockholm University, Sweden;

A Framework for Comparing Text Categorization Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Université Paris VI, France;

Referências Bibliográficas

http://www.cs.cmu.edu/~softagents/webmate.html;

http://web.media.mit.edu/~lieber/Lieberary/Letizia/Letizia-Intro.html;

http://www.novotek.nl/Products/PlantIntelligence/infoagent.htm;

Aula da disciplina mineração na WEB relativa à agentes na WEB e recuperação de informação;

Recommended