CIn-UFPE 1
Recuperação de InformaçãoMineração na Web
Exemplos de Aplicações
CIn-UFPE
2
Roteiro
Áreas de pesquisa e desenvolvimento relacionadas
Exemplos de Sistemas de RI Aplicações, agentes, serviços na Web
CIn-UFPE
3
Tarefa típica de RI
Dados Um corpus de documentos (itens de
dados) & Uma consulta do usuário
geralmente representada por palavras-chave
Encontrar Um conjunto ordenados de documentos
que são relevantes para a consulta
CIn-UFPE
4
Algumas Áreas relacionadas a RI
Bancos de dados Para armazenar os dados a serem recuperados
Inteligência artificial Ontologias e sistemas inteligentes de RI Aprendizagem de máquina
Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc..
Processamento de linguagem natural
Ciência da informação Bibliotecas digitais
CIn-UFPE
5
Processamento de Linguagem Natural
Algumas regiões de interseção Extração de informação Sistemas Pergunta-resposta E mais alguns métodos de
processamento dos documentos já vistos Análise léxica, Stemming, identificação
de grupos nominais, etc
CIn-UFPE
6
Exemplos de Sistemas de RI
Sistemas de Busca Sistemas de Automação de Bibliotecas Sistemas de Gerenciamento de Documentos Engenhos de Busca na Web Sistemas de Meta-busca
Sistemas de Pergunta-resposta
Sistemas de Classificação/clustering de documentos
Sistemas de Extração de Informação
Sistemas de Recomendação
Sistemas de Mineração de dados/informação
RI Heterogênea
CIn-UFPE
7
Exemplos de Agentes na Web
Agentes de filtragem de informação
Agentes notificadores
Agentes de Comércio Eletrônico
Agentes Chatterbots
CIn-UFPE
8Sistemas de Busca Sistemas de Automação de Bibliotecas
Primeira aplicação na área de RI
Atualmente, a tendência são as bibliotecas digitais RI + BD
Citeseer Scientific Literature Digital Library http://citeseer.ist.psu.edu/
CIn-UFPE
9
Sistemas de Busca Automação de Bibliotecas (2007-1)
BDCIn: Biblioteca Digital do Centro de Informática Indexação de Trabalhos de Graduação,
Dissertações de Mestrado e Teses de Doutorado do CIn-UFPE
objetivo geral: facilitar a divulgação e o acesso aos
trabalhos científicos produzidos no CIn
CIn-UFPE
10
Sistemas de BuscaExemplos (2008-1)
TG fácil: um engenho de busca web para trabalhos de graduação do CIn-UFPE Indexação dos TGs pelo conteúdo , não
só por meta-dados
Investment search Base indexada de dados sobre bolsa de
valores notícias atualizadas das principais bolsas
de valores do mundo obtidas a partir de sites da web que
contêm notícias sobre economia
CIn-UFPE
11
Sistemas de BuscaExemplos (2008-1)
ORKURIOSO Scraps -Troca de mensagens entre
usuários Busca por scraps
Levantamento de opiniões Fiscalização policial Curiosidade
Miss gay... Resultado
Sender - Link Receiver - Link Scrap
CIn-UFPE
12
Sistemas de Meta-busca
Engenhos de busca São robustos e gerais Porém, retornam uma quantidade muito
grande de documentos irrelevantes
Realizam buscas nas bases de índices de outros sistemas Na Web ou em BDs privados
Recuperação por similaridade Buscam documentos similares ao que o
ususário está visualizando ou editando E.g. GoogleToolbar, Active Search
(CIn), ...
Sistemas de Meta-busca Exemplo: Active Search
Doc’s Content
Current Doc’s Internal
Representation
Meta-searchQuery
Preparation
Docs Searcher
Query
Web
Local Directories
Documents Bases
Pointers to Documents
Docs’ Pointers
Docs’ Content
Doc. Post-Processor
Docs’ Internal Representatio
n
Ordered List of Docs
Application1
Application2
Application3
Docs Retriever
Docs Reorderer
Document Pre-Processor
Profile Manager
Relevant Documents
User’s Profile
LAN
CIn-UFPE
14
Sistemas de Pergunta-Resposta
Recuperação de Informação + Processamento de Linguagem Natural Recebem como entrada uma pergunta em
linguagem natural Retornam como saída a resposta (curta) ao
invés de uma lista de documentos Utilizando também técnicas de Extração de
Informação
Exemplo: P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube
CIn-UFPE
15Sistemas de Pergunta-RespostaArquitetura Genérica
CIn-UFPE
16
Sistemas de Pergunta-Resposta Exemplo: Pergunte!
Motivação A Web é o maior repositório de
informações já construído Necessidade de informação melhor
representada sob forma de pergunta Sistemas negligenciam a semântica da
pergunta e dos documentos
Sistema Pergunte! Uma interface em Português para
pergunta-resposta na Web Mestrado de Juliano Rabelo, 2004
CIn-UFPE
17
Sistemas de Pergunta-Resposta Exemplo (2007-1)
Q & A: sistema de pergunta-resposta Restrito a perguntas do tipo “Quem”, “Onde” e
“Quando” Utiliza uma base de dados local
CIn-UFPE
18Classificação e Clustering de documentos
Classificação - Objetivo Classificar documentos de acordo com
um conjunto ou hierarquia de categorias previamente definidas
Clustering – Objetivo Agrupar documentos semelhantes em
classes não conhecidas a priori
CIn-UFPE
19
Classificação de documentos
Algumas aplicações: Recomendação Alimentar hierarquias de classes, como a do
Yahoo, para facilitar a busca Criação de repositórios de domínio específico Distribuição de Notícias
Jornal personalizado Mensagem de Email e Newsgroups
Filtragem de spam Routing Atribuição de prioridades Seleção de folders
CIn-UFPE
20Classificação de documentos Exemplo: Sistema CitationFinder
Classificação automática de páginas de publicações científicas Mestrado de Mariana Lara Neves, 2001
Objetivo Criação e manutenção de um repositório de
documentos desse domínio Para alimentar o sistema Prodext
Construção manual: Bases de conhecimento com regras de produção Máquina de inferência (JEOPS)
CIn-UFPE
21
Classificação de documentos Exemplo 2007-1
Classificação de Websites http://rdf.dmoz.org
documento xml com diversos links e sua descrição e classificação
Domínio específico de “games”.
Conclusão: A descrição dos sites é muito breve para
obtermos um bom resultado com classificadores automáticos
CIn-UFPE
22
Clustering de documentos
Aplicações Criar taxonomias (hierarquias de
classes) para browsing de documentos em uma coleção
Agrupar resultados de consultas a engenhos de busca ou outros sistemas de RI
Técnicas Aprendizado não supervisionado
CIn-UFPE
23
Clustering de documentosExemplos
(2008-1) Clusering aplicado à base Iris Data Set
(2007-1) Domme: Domestic Mesh Engine Engenho de Busca e Agrupamento de
Documentos na Intranet do CIn recuperação eficiente dos documentos da
intranet do Cin
CIn-UFPE
24
Clustering de documentosExemplo 2007-1
Indexação e clustering & Busca na Web
Objetivo Facilitar a busca de material de estudo
(apostilas, tutoriais, aulas) na Web sobre um tema específico (e.g., Biologia 2º grau)
Com base no conteúdo de questões previamente cadastradas no sistema
CIn-UFPE
25
Clustering de documentos
Exemplo 2007-1
Agrupa perguntas de vestibular sobre um mesmo
tema
Questões de Biologia QuestionProcessor
TermFrequencyPreClustering
ClusterHandlerWEKA
TermFrequencyQuery
Links de docuementos
CIn-UFPE
26
Clustering de documentosExemplo 2007-1
CIn-UFPE
27Sistemas de Extração de Informação
Sistemas capazes de extrair de documentos relevantes apenas a informação requerida
A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs.
Sistema de EI
BD
Nome:End.:Fone:Fax:Preços:
Template
BC
Página de Hotel
CIn-UFPE
28
Sistemas de Extração de Informação
Exemplo: O ProdExt
ProdExt: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas Mestrado de Carla Nunes, 2000
Abordagem utilizada Construção manual de base de regras
Autor: A.V.Garcia and A. HaebererTítulo: An Architecture for Semantically Based Code MigrationVeículo: In Proc. of the II Brazilian Symp. on Progr. LanguagesPáginas: pp 179-192 Data: Sept/1997Local: Campinas, Brasil
A.V.Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179-192, Sept/1997, Campinas, Brasil.
CIn-UFPE
29
Exemplo: EI utilizando Aprendizagem de Máquina
Mestrado de Eduardo Amaral
B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .
B. Tho m a s, Anti-Un ific a tio n Ba se d Le a rning o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAAI-99 Wo rksho p o n M a c h ine Le a rn ing fo r In fo rm a tio n Extra c tio n, 199 9 .
d ivisã o e m fra g m e nto s
c la ssific a ç ã o
e xtra ç ã o d e c a ra c te rístic a s
fra g m e nto 1
fra g m e nto 1
fra g m e nto 2
fra g m e nto 2
fra g m e nto 3
fra g m e nto 3
fra g m e nto 4
fra g m e nto 4
130
10
041
20
152
13
2325
títu lo c o nfe rê nc ia d a taa uto r
a uto r, títu lo , c o nfe rê nc ia , d a ta
HM M
Fa se 1
Fa se 2
Sistemas de Extração de Informação
CIn-UFPE
30Sistemas de Extração de Informação
Exemplos (2008-1)
Extração de anúncios de vendas de carro do JC Online Os templates gerados forma indexados
pelo Lucene, para facilitar a consulta do usuário.
CIn-UFPE
31
Mineração de Opiniões
Análise de Sentimentos Sentiment analysis
Objetivo Prover tratamento automático de
opiniões/sentimentos Trata a subjetividade do texto
Opiniões são extraídas a partir de Sites de opiniões Sites de lojas Blogs Foruns…
CIn-UFPE
32
Mineração de Opiniões
Desafio identificar trechos dos textos que expressam
sentimentos/opiniões indicar se uma opinião é positiva (favorável) ou
negativa (desfavorável) em relação ao item sendo abordado
Utiliza técnicas de RI e processamento de linguagem natural
CIn-UFPE
33
Mineração de Opiniões
Base de Textos
Engenho de Busca
Opinion holders
Usuário final
Extraçãode Opiniões
Classificação de
Sentimento
Sumarização
Interface
Consulta(Objeto)
Textos
Textos retornados
Opiniões
Opiniões +sentimento
Sumário
CIn-UFPE
34Mineração de dados em Redes sociais
Objetivos Explorar o conhecimento coletivo e implícito,
descobrir padrões e regras de associação, prever tendências e a evolução da rede
Utiliza técnicas de mineração de dados e grafos
aliados a técnicas Aprendizagem de Máquina e
técnicas de visualização das redes
CIn-UFPE
35
Mineração de dados em Redes sociais Tarefas
Ranking de nós Importância, centralidade ou o poder de
influência de nós (grau, intermediação, proximidade,...)
Classificação baseada em Links Categorizar um nó considerando os
relacionamentos com outros nós
Predição de Links Prever a interação entre dois nós num futuro
próximo baseado na estrutura da rede
Agrupamento de nós Detectar grupos ou comunidades
CIn-UFPE
36
Sistemas de Personalização
São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário Utilizam profiles
Sistemas de personalização incluem: Recomendação Filtragem Predição
CIn-UFPE
37
Sistemas de Recomendação
Recomendam itens para usuários com base em suas preferências livros, filmes, CDs, páginas web, mensagens de
newsgroup
Exemplos de sistemas Lojas virtuais oferecem esse serviço para
aumentar as vendas e.g. Amazon, CDNow
Existem duas abordagens básicas par recomendação: Filtragem colaborativa (um tipo de filtragem
social) Recomendação baseada em conteúdo
CIn-UFPE
38
Sistema de RecomendaçãoExemplo 2007-1
ACoReS: Amadeus Course Recommendation System indica cursos aos usuários com base na identificação de padrões de
comportamento desses usuários em relação ao sistema Observa o histórico de cursos nos quais
os alunos se matricularam
CIn-UFPE
39
Integração de Informação
Pergunta-resposta + Extração de informação
Objetivo Integrar automaticamente diversos Web sites para responder a determinadas perguntas do
usuário cuja resposta não está disponível em um site único
Para cada site selecionado, um wrapper é construído
Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados que podem ser consultadas usando-se uma query
language (e.g. SQL).
CIn-UFPE
40Integração de Informação
Exemplo (2007-1)
LOGO: Sistema Integrado para Busca de Passagens Aéreas OnLine Extração de
informação + Integração de
informação
CIn-UFPE
41
Mais sistemas e aplicações
Sistemas de mineração de dados/informação
Sistemas de gerenciamento de documentos
CIn-UFPE
42
RI Heterogênea
Sistemas de Recuperação multi-língua Recebem a entrada em uma língua e
devolvem a saída em outra língua
Busca de partituras musicais ou cifras
Busca de padrões de exames médicos Eletrocardiogramas, …
CIn-UFPE
43
Agentes de Informação
Fazem mais do que só RI, pois podem: Comunicar-se Cooperar Negociar
Aplicações: Comércio eletrônico Leilões/licitações Etc……………..
CIn-UFPE
44
Agentes de Informação
Agentes Notificadores Enviam emails para o usuário de acordo
com seus interesses
Agentes de Comércio Eletrônico Capazes de representar o usuário em
compras na Web
Agentes Chatterbots Capazes de dialogar com os usuários em
linguagem natural restrita
CIn-UFPE
45
Agentes Chatterbots
Chatterbots Sistemas capazes de dialogar com os usuários
em linguagem natural restrita E.g., Eliza, ALICE
Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Pergunta-resposta
Esses agentes também podem ser usados como interfaces em linguagem natural para Bancos de dados Bases de conhecimento Sites na web
CIn-UFPE
46
Agentes Chatterbots
Exemplo de bot na Web - Pixel http://www.virtus.ufpe.br/pixel Tese de doutorado de André Neves
Utiliza a linguagem AILM Criação de novas tags para descrever o
nível pragmático dos diálogos com chatterbots
Próxima aula
CIn-UFPE
47