16
Aplicações dos Modelos Aplicações dos Modelos de Recuperação da de Recuperação da Informação na Extração Informação na Extração de Conteúdos na Web de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos Alunos: André Porto Letícia Santos Marcelo Henrique

Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

  • Upload
    minda

  • View
    18

  • Download
    2

Embed Size (px)

DESCRIPTION

Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web. Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos Alunos: André Porto Letícia Santos Marcelo Henrique. WEB. Grande quantidade de informação não-estruturada. - PowerPoint PPT Presentation

Citation preview

Page 1: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Aplicações dos Modelos de Aplicações dos Modelos de Recuperação da Informação na Recuperação da Informação na Extração de Conteúdos na WebExtração de Conteúdos na Web

Metodologia de Ciência da ComputaçãoProfessora: Odette Mestrinho Passos

Alunos:André PortoLetícia SantosMarcelo Henrique

Page 2: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

WEBWEB

• Grande quantidade de informação não-

estruturada.

• Necessidade do usuário filtrar informações

relevantes.

• Bancos de Dados para várias funções.

Page 3: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

• Importância dos sistemas

• IETS

• CRF (estado-da-arte)

WEBWEB

Page 4: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Fundamentação teóricaFundamentação teórica

DefiniçãoSistemas que lidam com representação,

armazenamento,organização e acesso as informações.

ObjetivoEncontrar objetos de diferentes tipos de

estruturas que satisfacam um conjunto de informações dentro de uma grande coleção.

Page 5: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

ModelosModelos

VetorialBooleano

Probabilístico

Page 6: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Modelo vetorialModelo vetorial

• Representação como vetores de termos

• A cada termo é possível associar um peso:• TF : caracterisitcas em comum• IDF : distinguir

• O termo cos(q) determina a proximidade da ocorrência.

• Similar: mesma região

Page 7: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Modelo booleanoModelo booleano

• Baseado na teoria dos conjuntos

• Cada documento está associado a um conjunto de palavras-

chave

• Cada consulta é na forma de uma expressão booleana.

• Termos de índice na combinação especificada pela

consulta.

Page 8: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Modelo probabilísticoModelo probabilístico

• Probabilidade de relevância ou incerteza

• Pesar dinamicamente os termos da consulta em relação ao

documento

• Termos relevantes já obtidos recebem peso maior dos que

não apareceram nos documentos relevantes.

Page 9: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

AplicaçõesAplicações

Web semântica

Page 10: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

AplicaçõesAplicações

ONDUXOn Demand Unsupervised Extraction

Page 11: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

• Método baseado em Recuparação de Informação para realizar tarefas de EIST.

• Sem fase de treinamento ajustada por usuários.

• Possibilidade de criação de modelos não específicos.

• Obteve resultados iguais ou melhores.

ONDUX

Page 12: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Três fases principais:

ONDUX

Page 13: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

ONDUX

Coroado R$100,900 1010 Novo Lar.;

3 quartos 2 Banheiros 8199-7654

Coroado R$100,000

1010 Rua Novo Lar.; 3 quartos;

2 banheiros.

8199-7654

Blocking

Page 14: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

ONDUX

B0

Matching

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Rua Preço No. ??? Rua

Qtos. Banh. Telefone

B1 B2 B3 B4

B5 B6 B7

Page 15: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

ONDUX

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Rua Preço No. ???? Rua

Qtos. Banh. Telefone

Reinforcement

Coroado R$100,00 1010 Novo Lar

3 Quartos 2 Banheiros 8199-7654

Bairro Preço No Rua

Qtos. Banh. Telefone

Page 16: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web

Dúvidas?Dúvidas?

Obrigado!