12
Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

Embed Size (px)

Citation preview

Page 1: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

Nº Aluno: 1000313 Nome: António Paulo Santos

Sessão Controlo Tese2º Semestre 2007/2008

Page 2: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

2

Agenda• Tema• Sistema classificação ACM• Objectivos• Cronograma Tese• Cronograma Tese – Detalhes• Sistema de recolha automática de documentos• Lista Referências mais relevantes• Reuniões Acompanhamento• Fim & Perguntas

04/27/23

Page 3: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

3

Tema• Sistema para classificação automática de

documentos segundo a ontologia ACM

• Tese integrada no projecto: Abordagem Computacional para Definição de Perfis

de Organizações de Investigação Científica a partir de Ontologias, PTDC/EIA/69988/2006

04/27/23

Page 4: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

4

Sistema classificação ACM

04/27/23

Figura 1 – Extracto do Sistema de classificação ACM versão 1998

Page 5: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

5

Objectivos

04/27/23

Page 6: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

6

Cronograma Tese

04/27/23

Page 7: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

7

Cronograma Tese - Detalhes

04/27/23

1 semana Pesquisa e elaboração de estratégia para atingir os objectos da tese

5 semanas Implementação do sistema que permite a recolha de documentos classificados segundo o sistema de classificação ACM

2 semanas Escrita relatório relacionado com as actividades anteriores2 semanas Levantamento bibliográfico sobre algoritmos de classificação automática de textos

3 semanas Implementação de alguns algoritmos de classificação automática de textos estudados no ponto anterior e aplicação

1 semanas Levantamento bibliográfico sobre medidas de avaliação de textos classificados automaticamente

2 semanas Implementação de algumas medidas de avaliação aplicadas aos resultados da classificação automática

3 semanas Escrita de Relatório

TOTAL: 19 semanas

Page 8: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

Trabalho já Realizado

Page 9: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

9

Sistema de recolha automática de documentos

04/27/23

URLServerLista PáginasdocId,URL

Crawler Archiver

Cópia em disco

PáginaMeta dados

ExtractorURLResolver AnchorsAncoras

URLs

Ancoras

Palavras-chave

Palavras-chaveNomes próprios

Status

docIDURL

Web

URL PáginadocIDURLPage

docIDURLPage

Status

Status

Status

Proceedings

Page 10: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

10

Trabalhos Científicos & Lista Referências

04/27/23

• Brin, S., & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the seventh international conference on World Wide Web 7 WWW7 / Computer Networks, 30, pp. 107-117.

• Hongkun Zhao, Weiyi Meng, Clement Yu; Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages; VLDB ‘06, September 12–15, 2006, Seoul, Korea.

• Cordeiro, J. P. (2003). Extracção de Elementos Relevantes em Texto/Páginas da World Wide Web. Tese para obtenção do grau de Mestre, Faculdade de Ciências da Universidade do Porto, Porto.

• Bastos, V. M. (2006). KNOWLEDGE DISCOVERY ENVIRONMENT IN THE WEB. Tese para obtenção do grau de Doutor em Ciências, Universidade Federal do Rio de Janeiro, COPPE, Rio de Janeiro.

Page 11: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

11

Reuniões Acompanhamento

04/27/23

Data Assunto21 de Abril de 2008 • Estado da recolha dos dados dos proceedings

• Pontos relacionados com o inicio da escrita do relatório referente à 1º fase do projecto11 de Abril de 2008 • Exposição do problema “leak memory” encontrado na implementação que não

permitia a aplicação correr durante longos períodos de tempo. Ferramentas estudadas e usadas para corrigir o problema

04 de Abril de 2008 •Criação da aplicação que carrega de um ficheiro XML para uma tabela os dados da árvore de classificação ACM. Descrição e justificação da estrutura seguida para a tabela•Resolução para o facto do motor de base dados MySql não libertar o espaço ocupado em disco quando se eliminam registos ou tabelas (isto acontece quando as tabelas são do tipo InnoDB)•A necessidade efectuar logs mais detalhados e não apenas dos erros e avisos•Reestruturação dos métodos implementados de modo a que métodos comuns a várias classes fossem agrupados numa classe e através do mecanismo de herança criar novas classes•Exposição das páginas Web que a aplicação irá percorrer até chegar às informações desejadas (artigos / proceedings)

28 de Março de 200821 de Março de 2008 Feriado14 de Março de 2008 Desenho e implementação do sistema de recolha e extracção de informação07 de Março de 2008 Análise do site e estratégia para extracção de informação do site ACM03 de Março de 2008 Estratégia geral para atingir os objectivos da tese

Page 12: Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

12

FIM

Perguntas ?

04/27/23