11
3 Modelo Proposto O surgimento da Web semântica (Berners-Lee, 2001), adiciona uma camada de "inteligência" à Web, onde computadores são capazes de representar significados dos conteúdos acessados na Web, e consequentemente, processá-los. Para que a Web semântica exerça seu papel é preciso adicionar metadados nas páginas web, isso pode ser atingido através do uso de ontologias conforme Ribas (2007) escreve: “De acordo com o W3C 6 , metadados são informações sobre informações. Informações que permitem rotular, catalogar e descrever dados para que estes sejam estruturados de maneira que as máquinas possam compreender, e daí saber onde procurar e exatamente o que procurar. Os metadados representam e explicam um objeto digital. Os metadados são os operacionalizadores da Web Semântica. A questão que se coloca aqui é: como criar metadados universais? A proposta de Berners-Lee é a de que essa universalização dos metadados se dê com o auxílio das ontologias, que são modelos conceituais que especificam os conceitos e as relações entre eles. As ontologias servem para realizar inferências sobre os objetos de um determinado grupo. Configuram representações do conhecimento.” Estudos feitos por Fernández-García e Sanchez-Fernández (2004), Ribas (2007) , Rocha (2012) e Pena (2012) sugerem uso de ontologias para apoiar a produção de notícias. Isso é feito através da criação de ontologias, modelos de domínio, e da associação de instâncias destas às instâncias do modelo de notícias, usando as relações lógicas do modelo de domínio para fazer relações entre as notícias, criando assim um conjunto de metadados para cada notícia publicada. Esse processo de associar metadados às notícias é conhecido como anotação semântica. Nesse sentido estamos falando em categorizar os itens de notícias usando as classes de uma ontologia. O uso de anotações semânticas para apoiar a publicação de notícias já é adotado por várias organizações, como BBC e NYT. As empresas de mídias enxergaram a oportunidade de utilizar os recursos da web semântica para 6 http://www.w3.org

3 Modelo Proposto - PUC-Rio€¦ · Para que a Web semântica exerça seu papel é preciso adicionar metadados nas páginas web, isso pode ser atingido através do uso de ontologias

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

3 Modelo Proposto

O surgimento da Web semântica (Berners-Lee, 2001), adiciona uma

camada de "inteligência" à Web, onde computadores são capazes de

representar significados dos conteúdos acessados na Web, e

consequentemente, processá-los.

Para que a Web semântica exerça seu papel é preciso adicionar

metadados nas páginas web, isso pode ser atingido através do uso de

ontologias conforme Ribas (2007) escreve:

“De acordo com o W3C6, metadados são informações sobre informações. Informações que permitem rotular, catalogar e descrever dados para que estes sejam estruturados de maneira que as máquinas possam compreender, e daí saber onde procurar e exatamente o que procurar. Os metadados representam e explicam um objeto digital. Os metadados são os operacionalizadores da Web Semântica. A questão que se coloca aqui é: como criar metadados universais? A proposta de Berners-Lee é a de que essa universalização dos metadados se dê com o auxílio das ontologias, que são modelos conceituais que especificam os conceitos e as relações entre eles. As ontologias servem para realizar inferências sobre os objetos de um determinado grupo. Configuram representações do conhecimento.”

Estudos feitos por Fernández-García e Sanchez-Fernández (2004), Ribas

(2007) , Rocha (2012) e Pena (2012) sugerem uso de ontologias para apoiar a

produção de notícias. Isso é feito através da criação de ontologias, modelos de

domínio, e da associação de instâncias destas às instâncias do modelo de

notícias, usando as relações lógicas do modelo de domínio para fazer relações

entre as notícias, criando assim um conjunto de metadados para cada notícia

publicada.

Esse processo de associar metadados às notícias é conhecido como

anotação semântica. Nesse sentido estamos falando em categorizar os itens de

notícias usando as classes de uma ontologia.

O uso de anotações semânticas para apoiar a publicação de notícias já é

adotado por várias organizações, como BBC e NYT. As empresas de mídias

enxergaram a oportunidade de utilizar os recursos da web semântica para

6 http://www.w3.org

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

34

melhorar a produção de conteúdo e entregar para o usuário final uma

experiência mais rica. Sobre isso Rocha (2012) escreve:

Em relação à tecnologia, é válido dizer que no NYT, BBC News e MSNBC.COM a plataforma que abarca tais inovações é baseada na Web Semântica. No tocante à classificação de conteúdo, o NYT é o melhor exemplo de integração dessa tecnologia ao fluxo de trabalho. Segundo Sandhaus e Larson (2009), a empresa possui um complexo sistema de anotação semântica, onde o próprio Content Management System - CMS sugere categorias a serem relacionadas ao conteúdo, com base na análise dos dados nele contidos, a partir de uma ferramenta integrada de Natural Language Processing- NLP.

Existem algumas ontologias que são referências no tratamento de

anotações semânticas em notícias e que serviram de inspiração para este

trabalho, dentre elas cita-se o rNews7, modelo adotado pelo NYT, e que foi mais

tarde incorporado ao Schema.org8, e as seguintes ontologias da BBC9: creative

work ontology, sports ontology, news storyline.

O rNews é um modelo de dados que representa um padrão para se tratar

notícias, e foi criado pelo IPTC10 (International Press Intercommunications

Council), que é um grupo formado pelas principais organizações de mídias. O

rNews trata a notícia, que no seu modelo é representada pela classe NewsItem,

de uma forma sintática, identificando os elementos sua composição, tais como

título, data de criação, número de palavras, dentre outros. Além disso trata da

relação da notícia com os conceitos que ela menciona, representados pela

classe Concept, que podem ser pessoas, lugares ou organizações. Em 2011 o

rNews foi incorporado ao Schema.org, que é um consórcio entre as grandes

empresas de busca do mercado web, representadas por Google, Microsoft e

Yahoo!, o qual fornece uma coleção de modelos que podem ser usados para

adicionar metadados às páginas html de modo a serem reconhecidos pelos

mecanismos de busca.

Ainda tratando de ontologias de notícias, a BBC também contribui com

ontologias próprias que apoiam a produção de conteúdo de seus sites, como foi

relatado por Pena(2012):

“Em [O' Donovan 2010] são descritas as mudanças em tecnologia e fluxo de trabalho usados para gerenciar e publicar o conteúdo da BBC para o site da Copa do Mundo 2010. Este site utiliza as tecnologias da Web

7 http:// http://dev.iptc.org/rNews 8 https://schema.org/ 9 http://www.bbc.co.uk/ontologies 10 http://www.iptc.org/

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

35

Semântica, mais especificamente, “Linked Data11”, para gerenciar o conteúdo publicado e tem mais de 700 páginas agregadoras de conteúdo(páginas de índice). Por exemplo, a página de um time ou página de um atleta são geradas automaticamente, a partir de “tags” semânticos inseridos nos conteúdos pe-los jornalistas.”

A ontologia de notícias da BBC tem como ponto central a classe Creative

Works12, ela retrata qualquer conteúdo criado pela BBC (matérias, programas,

guias e receitas), de forma semelhante ao rNews. Mas o diferencial é que a BBC

vai além de só descrever as notícias e seus componentes, pois eles usam a

classe Thing para relacionar o conteúdo das notícias com as demais ontologias

de domínios da BBC, conforme citado acima, onde a ontologia de esportes foi

usada para apoiar a publicação de notícias durante a copa do mundo de 2010.

A organização estudada também já possui uma ontologia para apoiar a

publicação de notícias baseada na anotação semântica das entidades (pessoas,

lugares e organizações) mencionadas na matéria.

Mas apesar de apoiar a produção de conteúdos e a categorização destes

em relação a quem aparece citado no texto, estas classificações, ainda que

semânticas, apresentam um ponto de vista superficial da notícia pois não

informam nada sobre o contexto em que ela estava inserida. Para trazer esse

contexto para as anotações de notícias, é preciso tratar não só a notícia mas

também os eventos relacionados a ela.

Existem iniciativas de ontologias para tratar eventos, como por exemplo

Event ontology13 que define evento como a maneira pela qual agentes cognitivos

classificam alterações no tempo/espaço. Pena (2012) descreve o uso de uma

ontologia para dar suporte a narrativas de jogos de futebol e dos eventos que

acontecem durante a partida usando como base a ontologia de fundamentação

UFO-B:

"UFO-B é uma ontologia de eventos que diferencia explicitamente Eventos e Objetos. Eventos (ou ocorrências) são indivíduos compostos de partes temporais. Eles acontecem no tempo no sentido de se estenderem no tempo acumulando partes temporais. São exemplos de eventos: uma conversa, uma partida de futebol, a execução de uma sinfonia e um processo de negócio. Eventos não podem sofrer mudanças no tempo no sentido genuíno, uma vez que nenhuma de suas partes temporais mantém sua identidade ao longo do tempo”.

11 http://linkeddata.org/ 12 http://www.bbc.co.uk/ontologies/creativework 13 http://motools.sourceforge.net/event/event.html

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

36

Portanto, tratando eventos eleva-se o grau de semântica envolvido nas

relações entre notícias. Isso permite endereçar um problema presente em

qualquer redação, inclusive na organização estudada, que é como contar uma

história na web de forma eficiente. Essas histórias são conhecidas como

coberturas jornalísticas.

Para exemplificar o problema em questão na organização estudada vamos

observar as figuras seguintes que são matérias sobre a cobertura do incêndio na

boate Kiss em janeiro de 2013, no Rio Grande do Sul.

A notícia representada na figura 11 foi uma das primeiras produzidas,

algumas horas após o incêndio ter acontecido. Observe-se o tag que aparece

marcado em vermelho ao final da notícia, nele está escrito Rio Grande do Sul.

Esse é um tag proveniente de uma anotação semântica, que foi gerado pelo

jornalista ao escrever a notícia. Chamamos a atenção para o fato de que ele

denota apenas o lugar onde a tragédia aconteceu e não tem nenhuma

informação sobre o evento tratado pela matéria.

Outras notícias são criadas à medida que surgem fatos novos. Na figura 12

podemos ver uma matéria mais completa e que possui um conjunto de links para

outras notícias relevantes ao caso, destacadas em vermelho. O interessante é

que estes links foram criados manualmente pelo jornalista.

A figura 13 nos traz uma notícia sobre o incêndio da Boate Kiss que foi

publicada um ano após a tragédia. Destacamos em vermelho um conjunto de

links acima do texto, que possui um formato de uma cobertura de notícias. Estes

links também foram produzidos manualmente pelo jornalista, que teve o trabalho

de localizar as notícias relevantes sobre o caso um ano depois, sem que estas

estivessem organizadas como pertencentes ao mesmo caso.

Portanto, levando-se em consideração as principais características do

jornalismo digital já citadas, especialmente atualização contínua,

hipertextualidade e memória, podemos entender que a notícia na Web é algo

que evolui ao longo do tempo, deve ser relacionada a outras notícias relevantes

através de hiperlinks e que precisa de uma estrutura de organização do seu

conteúdo que viabilize o seu uso através do tempo. Esse é o problema que se

pretende resolver neste trabalho através do uso de um modelo de coberturas

jornalísticas.

Apesar de o conceito de coberturas jornalísticas não ser novo, no mundo

digital ele ganha relevância uma vez que uma notícia na web nunca deixa de

existir. A cobertura de um caso pode voltar à mídia meses e até anos depois.

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

37

Figura 11 - Notícia sobre incêndio na boate com tag de local

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

38

Figura 12 - Notícia sobre incêndio na boate com mini cobertura

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

39

Figura 13 - Notícia sobre incêndio na boate um ano depois da tragédia

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

40

Durante o desenvolvimento deste trabalho a BBC lançou uma ontologia

chamada Storyline14 que trata do problema mencionado, ou seja como se contar

uma história na web. A classe principal do modelo chama-se Storyline, e ela

representa a história que o jornalista quer contar. Semelhante ao modelo que

será proposto a seguir, ela se apoia nos eventos para caracterizar as etapas da

história.

O modelo de cobertura de notícias proposto nesse trabalho foi pensado

para ser consistente com o modelo semântico de entidades já usado pela

organização estudada, mas com a preocupação de que pudesse ser facilmente

reutilizado por outras organizações.

Entende-se por cobertura jornalística um conjunto de matérias que

possuem uma ligação entre si por tratarem do mesmo assunto e que são

contextualizadas no tempo, na sua localização e em relação a quem estava

envolvido nos acontecimentos.

Como exemplo de coberturas jornalísticas temos as notícias que cobrem

uma corrida presidencial, eventos esportivos como a Olimpíada, a cobertura de

grandes tragédias, a morte de uma celebridade, escândalos na política, etc.

Todas elas de um modo geral tratam da cobertura de algum evento de grande

importância e que mereceu destaque editorial.

Do ponto de vista do leitor, uma abordagem de cobertura jornalística

atenderá aqueles que estão se deparando com uma notícia sobre o caso pela

primeira vez e podem resgatar o histórico de acontecimentos através da linha do

tempo da cobertura. Uma outra abordagem é a de leitores que já acompanham o

caso e querem tomar conhecimento dos novos acontecimentos.

O modelo proposto será usado para apoiar a publicação de conteúdo em

um portal de notícias através da associação de metadados às notícias

produzidas pelos jornalistas. Esses metadados consistem de anotações

semânticas feitas sobre uma notícia indicando por exemplo pessoas, lugares,

organizações citadas no texto, qual o evento associado a ela etc.

Ao criar esse relacionamento entre as notícias, as entidades que elas

citam e os eventos que acontecem no mundo estamos adicionando uma

inteligência na organização dos conteúdos jornalísticos que permitirá ao

jornalista associar e descobrir novas notícias.

14 http://www.bbc.co.uk/ontologies/storyline

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

41

3.1.Ontologia de cobertura de notícias

Figura 14 - Ontologia de cobertura de notícias

Este é um modelo genérico que descreve como podemos associar a

publicação de notícias com a produção de coberturas jornalísticas. A proposta é

que seja um modelo flexível que possa ser usado em qualquer tipo de notícia e

em qualquer mídia. Além disso ele permite ser expandido e adaptado a qualquer

situação.

A classe Entidade representa tudo aquilo que possui identidade. Essa é

uma classe que tem um papel de classe abstrata (i.e., uma classe que não pode

ter instâncias diretas) por essa razão ela não deverá possuir instâncias de dados

associadas diretamente a ela e sim nas suas subclasses que são: Pessoa,

Lugar, Organização. São exemplos de instâncias para a classe Pessoa: Dilma

Roussef e Romário. São instâncias de lugar: Brasília, Estádio do Maracanã e, da

mesma forma, instâncias de organização: Clube do Flamengo, Apple, Tv Globo.

Notícia é a classe fundamental desse modelo e representa todo fato

narrado por um jornalista para divulgar acontecimentos, seja através de texto,

fotos, vídeos, galeria de fotos, etc. Uma vez escrita, a notícia passa por um

Notícia

cita a entidade

Pessoa

Cobertura de noticias

evento_anterior

Evento

trata do evento

JogoFutebol

ator principal

OrganizacaoLocal

onde

Entidade

ator

prin

cipa

l

ator

sec

unda

rio

Evento Noticioso

0..1

1..*

e_item_cob

cob_

cont

em

e_ite

m_c

ob

Capitulo

1..* 1

1..* *

*

*

*

*

*

1..* *

*

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

42

processo de anotação semântica, onde são associadas a ela as entidades

citadas. Portanto, se uma notícia fala sobre a presidente Dilma Rousseff, no

modelo isso é representado através do relacionamento “cita a entidade”.

A classe Evento representa qualquer evento que aconteça no tempo e no

espaço e que pode ter personagens envolvidos. Portanto é fundamental que o

evento tenha data de início, podendo ou não ter data de fim. Eventos podem ser

encadeados sequencialmente no tempo através do relacionamento

“evento_anterior”. Notícias são associadas a Eventos através do relacionamento

“trata do evento”. São exemplos de eventos: Eleições presidenciais, Rock in Rio

e um jogo de futebol. Um evento pode ser associado a um local, representado

no modelo pelo relacionamento “onde” com a classe Lugar. Da mesma maneira

ele pode ter personagens, que seriam instâncias de Entidades e essa

associação pode ser feita através dos relacionamentos “ator principal” e “ator

secundário”. O ator principal é o agente necessário para que o evento aconteça

e o ator secundário é um coadjuvante na história. Suponha que se queira cobrir

um julgamento de assassinato, nesse caso o réu seria o personagem principal e

a vítima seria personagem secundário. A classe Evento pode ser especializada

para tratar as características únicas de cada tipo de evento que se deseja cobrir.

Para o escopo desse trabalho usaremos a classe Evento Noticioso, que tem a

finalidade de tratar qualquer evento sobre fatos cotidianos que virem notícia. No

entanto também é possível especializar a classe Evento para tratar de eventos

específicos que tenham características próprias. Para exemplificar a facilidade

com que essa classe seria estendida, vamos supor que se quisesse tratar de um

evento que é um jogo de futebol e por isso teria atributos como times, jogadores,

placar do jogo. Nesse caso bastaria criar a classe Jogo de futebol, que conforme

pode ser visto no modelo é filha da classe Evento, por isso herda todas as

características da classe pai, mas possui as suas características próprias.

A classe Cobertura de notícias representa um fato que ganha maior

relevância e merece um tratamento editorial. Se estivermos falando de um fato

isolado, ele será tratado apenas como notícia, mas se o fato abordado ganha

atualizações (i.e., se estende no tempo), e se desdobra numa sequência de

novos eventos relacionados, ele pode ser tratado como uma Cobertura

Jornalística. Como exemplos de coberturas podemos citar Eleições

Presidenciais, a morte de Michael Jackson e Olimpíadas.

A cobertura é formada de capítulos que são representados pela classe

Capitulo. O relacionamento “cob_contem” representa esta associação. Um

capítulo pode ser formado por um ou mais eventos ou até mesmo outra

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA

43

cobertura, sendo esta associação representada pelo relacionamento

“e_item_cob”.

Portanto, o modelo de coberturas será usado pelo jornalista para criar

anotações semânticas nas notícias, identificando além das entidades, os

eventos dos quais as notícias tratam, quem estava envolvido neles, quando e

aonde ocorreram. Dessa forma o jornalista pode criar uma estrutura para

coberturas jornalísticas que ressalte as notícias mais relevantes daquela história

e, dessa forma, oferecer ao leitor um conteúdo aperfeiçoado.

DBD
PUC-Rio - Certificação Digital Nº 1112627/CA