Classificação automática de notícias em português do Brasil

Preview:

DESCRIPTION

Qualificação do meu mestrado realizada em 01 de julho de 2011

Citation preview

CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL

Rodrigo Constantin Ctenas Zaccara6367629

AGENDA

• Motivação

• Objetivos

• Reconhecimento de Entidades Nomeadas

• MUC7

• Aquisição e extração de conteúdo

• Classificação de conteúdo

• Próximos passos

MOTIVAÇÃO

•Direcionamento automático de notícias para nicho de interesse

OBJETIVOS

•Desenvolvimento de córpus público baseado em notícias esportivas

•Motor de reconhecimento e classificação de entidades nomeadas

RECONHECIMENTO DE ENTIDADES NOMEADAS

CONCEITOS

• Subárea no campo de extração de informação

•Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural

DESAFIOS

• Ausência de informação

• Ambiguidade semântica

• Exemplo:

• “Pessoas fazem orações por São Paulo”

MUC7

INFORMAÇÕES GERAIS

•Message Understanding Conference Proceedings

• Financiado pela Defense Advanced Research Projects Agency

• Textos jornalísticos completos

• Temas:

•Quedas de aviões

• Lançamentos de mísseis e foguetes

ETIQUETAS

Tag Categoria Descrição de uso

ENAMEX LOCATION Nome político ou geográfico

ORGANIZATION Entidades organizacionais

PERSON Nome de pessoa ou famíla

NUMEX MONEY Expressão financeira

PERCENT Dados percentuais

TIMEX DATE Data completa ou parcial

TIME Horário completo ou parcial

EXEMPLO

<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launch Wednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satellite programming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER> </DOC>

AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO

HISTÓRICO

• Excite em 1993

• Yahoo! em 1994

• Alta vista em 1995

• Google em 1997

Inicio da decaca de 90Googlebot

OBJETIVOS

OBJETIVOS

OBJETIVOS

RESULTADOS

• Redução em 81 % de links irrelevantes

• Filtro AAAA/MM/DD

• Filtro baseado no header Content-Type

CLASSIFICAÇÃO DE CONTEÚDO

DEMONSTRAÇÃO

PREMISSAS

•Mecanismo flexível e dinâmico para criação do conjunto de etiquetas

• Sistema iterativo de classificação

• Pontos de recuperação

• Localização dos recursos de interface

TECNOLOGIAS

• HTML

• CSS

• JavaScript

• JSTL

• EL

• Servlet

• jQuery

• log4j

•MongoDB

•MySQL

DEMONSTRAÇÃO

RESULTADOS

• Ganho de 43% na classificação da notícia

• Simples: 7 minutos

• Rica: 4 minutos

• Ganho de 99% na gerência de documentos

• Simples: 100 segundos

• Rica: 1 segundo

RESULTADOS

• Ganho de 54% no processo geral

• Simples: 8:40 minutos

• Rica: 4:01 minutos

ETIQUETAS

1a Fase 2a Fase 3a Fase

Pessoa Time Torcida

Lugar Estádio

Organização Campeonato

CLASSIFICAÇÃO

• Substantivos próprios

• Apelidos (mago, gladiador)

• Referências (tricolocor do Morumbi)

Uma vez que este trabalho tem como principal objetivo a classificação de entidades ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.

PRÓXIMOS PASSOS

CRONOGRAMA

CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL

Rodrigo Constantin Ctenas Zaccara6367629

Recommended