Upload
rodrigo-zaccara
View
618
Download
3
Embed Size (px)
DESCRIPTION
Qualificação do meu mestrado realizada em 01 de julho de 2011
Citation preview
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL
Rodrigo Constantin Ctenas Zaccara6367629
AGENDA
• Motivação
• Objetivos
• Reconhecimento de Entidades Nomeadas
• MUC7
• Aquisição e extração de conteúdo
• Classificação de conteúdo
• Próximos passos
MOTIVAÇÃO
•Direcionamento automático de notícias para nicho de interesse
OBJETIVOS
•Desenvolvimento de córpus público baseado em notícias esportivas
•Motor de reconhecimento e classificação de entidades nomeadas
RECONHECIMENTO DE ENTIDADES NOMEADAS
CONCEITOS
• Subárea no campo de extração de informação
•Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural
DESAFIOS
• Ausência de informação
• Ambiguidade semântica
• Exemplo:
• “Pessoas fazem orações por São Paulo”
MUC7
INFORMAÇÕES GERAIS
•Message Understanding Conference Proceedings
• Financiado pela Defense Advanced Research Projects Agency
• Textos jornalísticos completos
• Temas:
•Quedas de aviões
• Lançamentos de mísseis e foguetes
ETIQUETAS
Tag Categoria Descrição de uso
ENAMEX LOCATION Nome político ou geográfico
ORGANIZATION Entidades organizacionais
PERSON Nome de pessoa ou famíla
NUMEX MONEY Expressão financeira
PERCENT Dados percentuais
TIMEX DATE Data completa ou parcial
TIME Horário completo ou parcial
EXEMPLO
<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launch Wednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satellite programming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER> </DOC>
AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
HISTÓRICO
• Excite em 1993
• Yahoo! em 1994
• Alta vista em 1995
• Google em 1997
Inicio da decaca de 90Googlebot
OBJETIVOS
OBJETIVOS
OBJETIVOS
RESULTADOS
• Redução em 81 % de links irrelevantes
• Filtro AAAA/MM/DD
• Filtro baseado no header Content-Type
CLASSIFICAÇÃO DE CONTEÚDO
DEMONSTRAÇÃO
PREMISSAS
•Mecanismo flexível e dinâmico para criação do conjunto de etiquetas
• Sistema iterativo de classificação
• Pontos de recuperação
• Localização dos recursos de interface
TECNOLOGIAS
• HTML
• CSS
• JavaScript
• JSTL
• EL
• Servlet
• jQuery
• log4j
•MongoDB
•MySQL
DEMONSTRAÇÃO
RESULTADOS
• Ganho de 43% na classificação da notícia
• Simples: 7 minutos
• Rica: 4 minutos
• Ganho de 99% na gerência de documentos
• Simples: 100 segundos
• Rica: 1 segundo
RESULTADOS
• Ganho de 54% no processo geral
• Simples: 8:40 minutos
• Rica: 4:01 minutos
ETIQUETAS
1a Fase 2a Fase 3a Fase
Pessoa Time Torcida
Lugar Estádio
Organização Campeonato
CLASSIFICAÇÃO
• Substantivos próprios
• Apelidos (mago, gladiador)
• Referências (tricolocor do Morumbi)
Uma vez que este trabalho tem como principal objetivo a classificação de entidades ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.
PRÓXIMOS PASSOS
CRONOGRAMA
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL
Rodrigo Constantin Ctenas Zaccara6367629