Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
3 Modelo Proposto
O surgimento da Web semântica (Berners-Lee, 2001), adiciona uma
camada de "inteligência" à Web, onde computadores são capazes de
representar significados dos conteúdos acessados na Web, e
consequentemente, processá-los.
Para que a Web semântica exerça seu papel é preciso adicionar
metadados nas páginas web, isso pode ser atingido através do uso de
ontologias conforme Ribas (2007) escreve:
“De acordo com o W3C6, metadados são informações sobre informações. Informações que permitem rotular, catalogar e descrever dados para que estes sejam estruturados de maneira que as máquinas possam compreender, e daí saber onde procurar e exatamente o que procurar. Os metadados representam e explicam um objeto digital. Os metadados são os operacionalizadores da Web Semântica. A questão que se coloca aqui é: como criar metadados universais? A proposta de Berners-Lee é a de que essa universalização dos metadados se dê com o auxílio das ontologias, que são modelos conceituais que especificam os conceitos e as relações entre eles. As ontologias servem para realizar inferências sobre os objetos de um determinado grupo. Configuram representações do conhecimento.”
Estudos feitos por Fernández-García e Sanchez-Fernández (2004), Ribas
(2007) , Rocha (2012) e Pena (2012) sugerem uso de ontologias para apoiar a
produção de notícias. Isso é feito através da criação de ontologias, modelos de
domínio, e da associação de instâncias destas às instâncias do modelo de
notícias, usando as relações lógicas do modelo de domínio para fazer relações
entre as notícias, criando assim um conjunto de metadados para cada notícia
publicada.
Esse processo de associar metadados às notícias é conhecido como
anotação semântica. Nesse sentido estamos falando em categorizar os itens de
notícias usando as classes de uma ontologia.
O uso de anotações semânticas para apoiar a publicação de notícias já é
adotado por várias organizações, como BBC e NYT. As empresas de mídias
enxergaram a oportunidade de utilizar os recursos da web semântica para
6 http://www.w3.org
34
melhorar a produção de conteúdo e entregar para o usuário final uma
experiência mais rica. Sobre isso Rocha (2012) escreve:
Em relação à tecnologia, é válido dizer que no NYT, BBC News e MSNBC.COM a plataforma que abarca tais inovações é baseada na Web Semântica. No tocante à classificação de conteúdo, o NYT é o melhor exemplo de integração dessa tecnologia ao fluxo de trabalho. Segundo Sandhaus e Larson (2009), a empresa possui um complexo sistema de anotação semântica, onde o próprio Content Management System - CMS sugere categorias a serem relacionadas ao conteúdo, com base na análise dos dados nele contidos, a partir de uma ferramenta integrada de Natural Language Processing- NLP.
Existem algumas ontologias que são referências no tratamento de
anotações semânticas em notícias e que serviram de inspiração para este
trabalho, dentre elas cita-se o rNews7, modelo adotado pelo NYT, e que foi mais
tarde incorporado ao Schema.org8, e as seguintes ontologias da BBC9: creative
work ontology, sports ontology, news storyline.
O rNews é um modelo de dados que representa um padrão para se tratar
notícias, e foi criado pelo IPTC10 (International Press Intercommunications
Council), que é um grupo formado pelas principais organizações de mídias. O
rNews trata a notícia, que no seu modelo é representada pela classe NewsItem,
de uma forma sintática, identificando os elementos sua composição, tais como
título, data de criação, número de palavras, dentre outros. Além disso trata da
relação da notícia com os conceitos que ela menciona, representados pela
classe Concept, que podem ser pessoas, lugares ou organizações. Em 2011 o
rNews foi incorporado ao Schema.org, que é um consórcio entre as grandes
empresas de busca do mercado web, representadas por Google, Microsoft e
Yahoo!, o qual fornece uma coleção de modelos que podem ser usados para
adicionar metadados às páginas html de modo a serem reconhecidos pelos
mecanismos de busca.
Ainda tratando de ontologias de notícias, a BBC também contribui com
ontologias próprias que apoiam a produção de conteúdo de seus sites, como foi
relatado por Pena(2012):
“Em [O' Donovan 2010] são descritas as mudanças em tecnologia e fluxo de trabalho usados para gerenciar e publicar o conteúdo da BBC para o site da Copa do Mundo 2010. Este site utiliza as tecnologias da Web
7 http:// http://dev.iptc.org/rNews 8 https://schema.org/ 9 http://www.bbc.co.uk/ontologies 10 http://www.iptc.org/
35
Semântica, mais especificamente, “Linked Data11”, para gerenciar o conteúdo publicado e tem mais de 700 páginas agregadoras de conteúdo(páginas de índice). Por exemplo, a página de um time ou página de um atleta são geradas automaticamente, a partir de “tags” semânticos inseridos nos conteúdos pe-los jornalistas.”
A ontologia de notícias da BBC tem como ponto central a classe Creative
Works12, ela retrata qualquer conteúdo criado pela BBC (matérias, programas,
guias e receitas), de forma semelhante ao rNews. Mas o diferencial é que a BBC
vai além de só descrever as notícias e seus componentes, pois eles usam a
classe Thing para relacionar o conteúdo das notícias com as demais ontologias
de domínios da BBC, conforme citado acima, onde a ontologia de esportes foi
usada para apoiar a publicação de notícias durante a copa do mundo de 2010.
A organização estudada também já possui uma ontologia para apoiar a
publicação de notícias baseada na anotação semântica das entidades (pessoas,
lugares e organizações) mencionadas na matéria.
Mas apesar de apoiar a produção de conteúdos e a categorização destes
em relação a quem aparece citado no texto, estas classificações, ainda que
semânticas, apresentam um ponto de vista superficial da notícia pois não
informam nada sobre o contexto em que ela estava inserida. Para trazer esse
contexto para as anotações de notícias, é preciso tratar não só a notícia mas
também os eventos relacionados a ela.
Existem iniciativas de ontologias para tratar eventos, como por exemplo
Event ontology13 que define evento como a maneira pela qual agentes cognitivos
classificam alterações no tempo/espaço. Pena (2012) descreve o uso de uma
ontologia para dar suporte a narrativas de jogos de futebol e dos eventos que
acontecem durante a partida usando como base a ontologia de fundamentação
UFO-B:
"UFO-B é uma ontologia de eventos que diferencia explicitamente Eventos e Objetos. Eventos (ou ocorrências) são indivíduos compostos de partes temporais. Eles acontecem no tempo no sentido de se estenderem no tempo acumulando partes temporais. São exemplos de eventos: uma conversa, uma partida de futebol, a execução de uma sinfonia e um processo de negócio. Eventos não podem sofrer mudanças no tempo no sentido genuíno, uma vez que nenhuma de suas partes temporais mantém sua identidade ao longo do tempo”.
11 http://linkeddata.org/ 12 http://www.bbc.co.uk/ontologies/creativework 13 http://motools.sourceforge.net/event/event.html
36
Portanto, tratando eventos eleva-se o grau de semântica envolvido nas
relações entre notícias. Isso permite endereçar um problema presente em
qualquer redação, inclusive na organização estudada, que é como contar uma
história na web de forma eficiente. Essas histórias são conhecidas como
coberturas jornalísticas.
Para exemplificar o problema em questão na organização estudada vamos
observar as figuras seguintes que são matérias sobre a cobertura do incêndio na
boate Kiss em janeiro de 2013, no Rio Grande do Sul.
A notícia representada na figura 11 foi uma das primeiras produzidas,
algumas horas após o incêndio ter acontecido. Observe-se o tag que aparece
marcado em vermelho ao final da notícia, nele está escrito Rio Grande do Sul.
Esse é um tag proveniente de uma anotação semântica, que foi gerado pelo
jornalista ao escrever a notícia. Chamamos a atenção para o fato de que ele
denota apenas o lugar onde a tragédia aconteceu e não tem nenhuma
informação sobre o evento tratado pela matéria.
Outras notícias são criadas à medida que surgem fatos novos. Na figura 12
podemos ver uma matéria mais completa e que possui um conjunto de links para
outras notícias relevantes ao caso, destacadas em vermelho. O interessante é
que estes links foram criados manualmente pelo jornalista.
A figura 13 nos traz uma notícia sobre o incêndio da Boate Kiss que foi
publicada um ano após a tragédia. Destacamos em vermelho um conjunto de
links acima do texto, que possui um formato de uma cobertura de notícias. Estes
links também foram produzidos manualmente pelo jornalista, que teve o trabalho
de localizar as notícias relevantes sobre o caso um ano depois, sem que estas
estivessem organizadas como pertencentes ao mesmo caso.
Portanto, levando-se em consideração as principais características do
jornalismo digital já citadas, especialmente atualização contínua,
hipertextualidade e memória, podemos entender que a notícia na Web é algo
que evolui ao longo do tempo, deve ser relacionada a outras notícias relevantes
através de hiperlinks e que precisa de uma estrutura de organização do seu
conteúdo que viabilize o seu uso através do tempo. Esse é o problema que se
pretende resolver neste trabalho através do uso de um modelo de coberturas
jornalísticas.
Apesar de o conceito de coberturas jornalísticas não ser novo, no mundo
digital ele ganha relevância uma vez que uma notícia na web nunca deixa de
existir. A cobertura de um caso pode voltar à mídia meses e até anos depois.
37
Figura 11 - Notícia sobre incêndio na boate com tag de local
38
Figura 12 - Notícia sobre incêndio na boate com mini cobertura
39
Figura 13 - Notícia sobre incêndio na boate um ano depois da tragédia
40
Durante o desenvolvimento deste trabalho a BBC lançou uma ontologia
chamada Storyline14 que trata do problema mencionado, ou seja como se contar
uma história na web. A classe principal do modelo chama-se Storyline, e ela
representa a história que o jornalista quer contar. Semelhante ao modelo que
será proposto a seguir, ela se apoia nos eventos para caracterizar as etapas da
história.
O modelo de cobertura de notícias proposto nesse trabalho foi pensado
para ser consistente com o modelo semântico de entidades já usado pela
organização estudada, mas com a preocupação de que pudesse ser facilmente
reutilizado por outras organizações.
Entende-se por cobertura jornalística um conjunto de matérias que
possuem uma ligação entre si por tratarem do mesmo assunto e que são
contextualizadas no tempo, na sua localização e em relação a quem estava
envolvido nos acontecimentos.
Como exemplo de coberturas jornalísticas temos as notícias que cobrem
uma corrida presidencial, eventos esportivos como a Olimpíada, a cobertura de
grandes tragédias, a morte de uma celebridade, escândalos na política, etc.
Todas elas de um modo geral tratam da cobertura de algum evento de grande
importância e que mereceu destaque editorial.
Do ponto de vista do leitor, uma abordagem de cobertura jornalística
atenderá aqueles que estão se deparando com uma notícia sobre o caso pela
primeira vez e podem resgatar o histórico de acontecimentos através da linha do
tempo da cobertura. Uma outra abordagem é a de leitores que já acompanham o
caso e querem tomar conhecimento dos novos acontecimentos.
O modelo proposto será usado para apoiar a publicação de conteúdo em
um portal de notícias através da associação de metadados às notícias
produzidas pelos jornalistas. Esses metadados consistem de anotações
semânticas feitas sobre uma notícia indicando por exemplo pessoas, lugares,
organizações citadas no texto, qual o evento associado a ela etc.
Ao criar esse relacionamento entre as notícias, as entidades que elas
citam e os eventos que acontecem no mundo estamos adicionando uma
inteligência na organização dos conteúdos jornalísticos que permitirá ao
jornalista associar e descobrir novas notícias.
14 http://www.bbc.co.uk/ontologies/storyline
41
3.1.Ontologia de cobertura de notícias
Figura 14 - Ontologia de cobertura de notícias
Este é um modelo genérico que descreve como podemos associar a
publicação de notícias com a produção de coberturas jornalísticas. A proposta é
que seja um modelo flexível que possa ser usado em qualquer tipo de notícia e
em qualquer mídia. Além disso ele permite ser expandido e adaptado a qualquer
situação.
A classe Entidade representa tudo aquilo que possui identidade. Essa é
uma classe que tem um papel de classe abstrata (i.e., uma classe que não pode
ter instâncias diretas) por essa razão ela não deverá possuir instâncias de dados
associadas diretamente a ela e sim nas suas subclasses que são: Pessoa,
Lugar, Organização. São exemplos de instâncias para a classe Pessoa: Dilma
Roussef e Romário. São instâncias de lugar: Brasília, Estádio do Maracanã e, da
mesma forma, instâncias de organização: Clube do Flamengo, Apple, Tv Globo.
Notícia é a classe fundamental desse modelo e representa todo fato
narrado por um jornalista para divulgar acontecimentos, seja através de texto,
fotos, vídeos, galeria de fotos, etc. Uma vez escrita, a notícia passa por um
Notícia
cita a entidade
Pessoa
Cobertura de noticias
evento_anterior
Evento
trata do evento
JogoFutebol
ator principal
OrganizacaoLocal
onde
Entidade
ator
prin
cipa
l
ator
sec
unda
rio
Evento Noticioso
0..1
1..*
e_item_cob
cob_
cont
em
e_ite
m_c
ob
Capitulo
1..* 1
1..* *
*
*
*
*
*
1..* *
*
42
processo de anotação semântica, onde são associadas a ela as entidades
citadas. Portanto, se uma notícia fala sobre a presidente Dilma Rousseff, no
modelo isso é representado através do relacionamento “cita a entidade”.
A classe Evento representa qualquer evento que aconteça no tempo e no
espaço e que pode ter personagens envolvidos. Portanto é fundamental que o
evento tenha data de início, podendo ou não ter data de fim. Eventos podem ser
encadeados sequencialmente no tempo através do relacionamento
“evento_anterior”. Notícias são associadas a Eventos através do relacionamento
“trata do evento”. São exemplos de eventos: Eleições presidenciais, Rock in Rio
e um jogo de futebol. Um evento pode ser associado a um local, representado
no modelo pelo relacionamento “onde” com a classe Lugar. Da mesma maneira
ele pode ter personagens, que seriam instâncias de Entidades e essa
associação pode ser feita através dos relacionamentos “ator principal” e “ator
secundário”. O ator principal é o agente necessário para que o evento aconteça
e o ator secundário é um coadjuvante na história. Suponha que se queira cobrir
um julgamento de assassinato, nesse caso o réu seria o personagem principal e
a vítima seria personagem secundário. A classe Evento pode ser especializada
para tratar as características únicas de cada tipo de evento que se deseja cobrir.
Para o escopo desse trabalho usaremos a classe Evento Noticioso, que tem a
finalidade de tratar qualquer evento sobre fatos cotidianos que virem notícia. No
entanto também é possível especializar a classe Evento para tratar de eventos
específicos que tenham características próprias. Para exemplificar a facilidade
com que essa classe seria estendida, vamos supor que se quisesse tratar de um
evento que é um jogo de futebol e por isso teria atributos como times, jogadores,
placar do jogo. Nesse caso bastaria criar a classe Jogo de futebol, que conforme
pode ser visto no modelo é filha da classe Evento, por isso herda todas as
características da classe pai, mas possui as suas características próprias.
A classe Cobertura de notícias representa um fato que ganha maior
relevância e merece um tratamento editorial. Se estivermos falando de um fato
isolado, ele será tratado apenas como notícia, mas se o fato abordado ganha
atualizações (i.e., se estende no tempo), e se desdobra numa sequência de
novos eventos relacionados, ele pode ser tratado como uma Cobertura
Jornalística. Como exemplos de coberturas podemos citar Eleições
Presidenciais, a morte de Michael Jackson e Olimpíadas.
A cobertura é formada de capítulos que são representados pela classe
Capitulo. O relacionamento “cob_contem” representa esta associação. Um
capítulo pode ser formado por um ou mais eventos ou até mesmo outra
43
cobertura, sendo esta associação representada pelo relacionamento
“e_item_cob”.
Portanto, o modelo de coberturas será usado pelo jornalista para criar
anotações semânticas nas notícias, identificando além das entidades, os
eventos dos quais as notícias tratam, quem estava envolvido neles, quando e
aonde ocorreram. Dessa forma o jornalista pode criar uma estrutura para
coberturas jornalísticas que ressalte as notícias mais relevantes daquela história
e, dessa forma, oferecer ao leitor um conteúdo aperfeiçoado.