Upload
sebastiao-azenha-minho
View
219
Download
2
Embed Size (px)
Citation preview
Nº Aluno: 1000313 Nome: António Paulo Santos
Sessão Controlo Tese2º Semestre 2007/2008
2
Agenda• Tema• Sistema classificação ACM• Objectivos• Cronograma Tese• Cronograma Tese – Detalhes• Sistema de recolha automática de documentos• Lista Referências mais relevantes• Reuniões Acompanhamento• Fim & Perguntas
04/27/23
3
Tema• Sistema para classificação automática de
documentos segundo a ontologia ACM
• Tese integrada no projecto: Abordagem Computacional para Definição de Perfis
de Organizações de Investigação Científica a partir de Ontologias, PTDC/EIA/69988/2006
04/27/23
4
Sistema classificação ACM
04/27/23
Figura 1 – Extracto do Sistema de classificação ACM versão 1998
5
Objectivos
04/27/23
6
Cronograma Tese
04/27/23
7
Cronograma Tese - Detalhes
04/27/23
1 semana Pesquisa e elaboração de estratégia para atingir os objectos da tese
5 semanas Implementação do sistema que permite a recolha de documentos classificados segundo o sistema de classificação ACM
2 semanas Escrita relatório relacionado com as actividades anteriores2 semanas Levantamento bibliográfico sobre algoritmos de classificação automática de textos
3 semanas Implementação de alguns algoritmos de classificação automática de textos estudados no ponto anterior e aplicação
1 semanas Levantamento bibliográfico sobre medidas de avaliação de textos classificados automaticamente
2 semanas Implementação de algumas medidas de avaliação aplicadas aos resultados da classificação automática
3 semanas Escrita de Relatório
TOTAL: 19 semanas
Trabalho já Realizado
9
Sistema de recolha automática de documentos
04/27/23
URLServerLista PáginasdocId,URL
Crawler Archiver
Cópia em disco
PáginaMeta dados
ExtractorURLResolver AnchorsAncoras
URLs
Ancoras
Palavras-chave
Palavras-chaveNomes próprios
Status
docIDURL
Web
URL PáginadocIDURLPage
docIDURLPage
Status
Status
Status
Proceedings
10
Trabalhos Científicos & Lista Referências
04/27/23
• Brin, S., & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the seventh international conference on World Wide Web 7 WWW7 / Computer Networks, 30, pp. 107-117.
• Hongkun Zhao, Weiyi Meng, Clement Yu; Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages; VLDB ‘06, September 12–15, 2006, Seoul, Korea.
• Cordeiro, J. P. (2003). Extracção de Elementos Relevantes em Texto/Páginas da World Wide Web. Tese para obtenção do grau de Mestre, Faculdade de Ciências da Universidade do Porto, Porto.
• Bastos, V. M. (2006). KNOWLEDGE DISCOVERY ENVIRONMENT IN THE WEB. Tese para obtenção do grau de Doutor em Ciências, Universidade Federal do Rio de Janeiro, COPPE, Rio de Janeiro.
11
Reuniões Acompanhamento
04/27/23
Data Assunto21 de Abril de 2008 • Estado da recolha dos dados dos proceedings
• Pontos relacionados com o inicio da escrita do relatório referente à 1º fase do projecto11 de Abril de 2008 • Exposição do problema “leak memory” encontrado na implementação que não
permitia a aplicação correr durante longos períodos de tempo. Ferramentas estudadas e usadas para corrigir o problema
04 de Abril de 2008 •Criação da aplicação que carrega de um ficheiro XML para uma tabela os dados da árvore de classificação ACM. Descrição e justificação da estrutura seguida para a tabela•Resolução para o facto do motor de base dados MySql não libertar o espaço ocupado em disco quando se eliminam registos ou tabelas (isto acontece quando as tabelas são do tipo InnoDB)•A necessidade efectuar logs mais detalhados e não apenas dos erros e avisos•Reestruturação dos métodos implementados de modo a que métodos comuns a várias classes fossem agrupados numa classe e através do mecanismo de herança criar novas classes•Exposição das páginas Web que a aplicação irá percorrer até chegar às informações desejadas (artigos / proceedings)
28 de Março de 200821 de Março de 2008 Feriado14 de Março de 2008 Desenho e implementação do sistema de recolha e extracção de informação07 de Março de 2008 Análise do site e estratégia para extracção de informação do site ACM03 de Março de 2008 Estratégia geral para atingir os objectivos da tese
12
FIM
Perguntas ?
04/27/23