29
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629

Classificação automática de notícias em português do Brasil

Embed Size (px)

DESCRIPTION

Qualificação do meu mestrado realizada em 01 de julho de 2011

Citation preview

Page 1: Classificação automática de notícias em português do Brasil

CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL

Rodrigo Constantin Ctenas Zaccara6367629

Page 2: Classificação automática de notícias em português do Brasil

AGENDA

• Motivação

• Objetivos

• Reconhecimento de Entidades Nomeadas

• MUC7

• Aquisição e extração de conteúdo

• Classificação de conteúdo

• Próximos passos

Page 3: Classificação automática de notícias em português do Brasil

MOTIVAÇÃO

•Direcionamento automático de notícias para nicho de interesse

Page 4: Classificação automática de notícias em português do Brasil

OBJETIVOS

•Desenvolvimento de córpus público baseado em notícias esportivas

•Motor de reconhecimento e classificação de entidades nomeadas

Page 5: Classificação automática de notícias em português do Brasil

RECONHECIMENTO DE ENTIDADES NOMEADAS

Page 6: Classificação automática de notícias em português do Brasil

CONCEITOS

• Subárea no campo de extração de informação

•Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural

Page 7: Classificação automática de notícias em português do Brasil

DESAFIOS

• Ausência de informação

• Ambiguidade semântica

• Exemplo:

• “Pessoas fazem orações por São Paulo”

Page 8: Classificação automática de notícias em português do Brasil

MUC7

Page 9: Classificação automática de notícias em português do Brasil

INFORMAÇÕES GERAIS

•Message Understanding Conference Proceedings

• Financiado pela Defense Advanced Research Projects Agency

• Textos jornalísticos completos

• Temas:

•Quedas de aviões

• Lançamentos de mísseis e foguetes

Page 10: Classificação automática de notícias em português do Brasil

ETIQUETAS

Tag Categoria Descrição de uso

ENAMEX LOCATION Nome político ou geográfico

ORGANIZATION Entidades organizacionais

PERSON Nome de pessoa ou famíla

NUMEX MONEY Expressão financeira

PERCENT Dados percentuais

TIMEX DATE Data completa ou parcial

TIME Horário completo ou parcial

Page 11: Classificação automática de notícias em português do Brasil

EXEMPLO

<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launch Wednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satellite programming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER> </DOC>

Page 12: Classificação automática de notícias em português do Brasil

AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO

Page 13: Classificação automática de notícias em português do Brasil

HISTÓRICO

• Excite em 1993

• Yahoo! em 1994

• Alta vista em 1995

• Google em 1997

Inicio da decaca de 90Googlebot

Page 14: Classificação automática de notícias em português do Brasil

OBJETIVOS

Page 15: Classificação automática de notícias em português do Brasil

OBJETIVOS

Page 16: Classificação automática de notícias em português do Brasil

OBJETIVOS

Page 17: Classificação automática de notícias em português do Brasil

RESULTADOS

• Redução em 81 % de links irrelevantes

• Filtro AAAA/MM/DD

• Filtro baseado no header Content-Type

Page 18: Classificação automática de notícias em português do Brasil

CLASSIFICAÇÃO DE CONTEÚDO

Page 19: Classificação automática de notícias em português do Brasil

DEMONSTRAÇÃO

Page 20: Classificação automática de notícias em português do Brasil

PREMISSAS

•Mecanismo flexível e dinâmico para criação do conjunto de etiquetas

• Sistema iterativo de classificação

• Pontos de recuperação

• Localização dos recursos de interface

Page 21: Classificação automática de notícias em português do Brasil

TECNOLOGIAS

• HTML

• CSS

• JavaScript

• JSTL

• EL

• Servlet

• jQuery

• log4j

•MongoDB

•MySQL

Page 22: Classificação automática de notícias em português do Brasil

DEMONSTRAÇÃO

Page 23: Classificação automática de notícias em português do Brasil

RESULTADOS

• Ganho de 43% na classificação da notícia

• Simples: 7 minutos

• Rica: 4 minutos

• Ganho de 99% na gerência de documentos

• Simples: 100 segundos

• Rica: 1 segundo

Page 24: Classificação automática de notícias em português do Brasil

RESULTADOS

• Ganho de 54% no processo geral

• Simples: 8:40 minutos

• Rica: 4:01 minutos

Page 25: Classificação automática de notícias em português do Brasil

ETIQUETAS

1a Fase 2a Fase 3a Fase

Pessoa Time Torcida

Lugar Estádio

Organização Campeonato

Page 26: Classificação automática de notícias em português do Brasil

CLASSIFICAÇÃO

• Substantivos próprios

• Apelidos (mago, gladiador)

• Referências (tricolocor do Morumbi)

Uma vez que este trabalho tem como principal objetivo a classificação de entidades ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.

Page 27: Classificação automática de notícias em português do Brasil

PRÓXIMOS PASSOS

Page 28: Classificação automática de notícias em português do Brasil

CRONOGRAMA

Page 29: Classificação automática de notícias em português do Brasil

CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL

Rodrigo Constantin Ctenas Zaccara6367629