74
RADIODIFUSÃO Revista de volume 07- número 08 - 2013 ISSN impresso 1981-4984 ISSN eletrônico 2236-9619 pesquisas em ambientes digitais TV CINEMA INTERNET RADIO

set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

RADIODIFUSÃORevista de

volume 07- número 08 - 2013

ISSN impresso 1981-4984

ISSN eletrônico 2236-9619

pesquisas emambientes digitais

TV

CINEMA

INTERNET

RADIO

Page 2: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

RADIODIFUSÃORevista de

volume 07 - número 07 - 2013

“Pesquisas em ambientes digitaistv - internet - radio - cinema”

SET - Sociedade Brasileira de Engenharia de TelevisãoRio de Janeiro - RJ - Rua Jardim Botânico,700 - Sala 306 | CEP. 22461-000

Tel.: + 55 (21) 2512-8747 - Fax + 55 (21) 2294-2791 São Paulo - SP - Av. Auro Soares de Moura Andrade, 252- Cj. 11 | CEP. 01156-001

Tels: +55 (11) 3666 9604 www.set.org.br | [email protected]

volume 07 • número 08 • 2013

Page 3: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Elaborada por: Silvania W. Martins

Revista Eletrônica de Radio Difusão / SET. -- v. 7, n. 8 (2013). – São Paulo : Editora Sociedade Brasileira de Engenharia de Televisão - SET, 2013-.

SemestralPeriodicidade do v. 7: semestralDisponível na Internet: : http://www.set.org.br/revistaderadiodifusao/ISSN 2236-9619 1. Radiofusão - Periódicos. 2. TVDigital - Periódicos. 3. Broadcast – Periódicos. I.

Sociedade Brasileira de Engenharia de Televisão. II. SET.

CDD (21. ed.) 384.54

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013

Page 4: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Expedientevolume 07 • número 08 • 2013

Presidência Olímpio José Franco

Vice Presidente Nelson Faria Jr

Diretoria Editorial Valderez de Almeida Donzelli Valdecir Becker

Comitê Editorial Almir Almas

Francisco S. Husni Ribeiro José Olairson Valentim Rodrigo Dias Arnaut Tom Jones Moreira

Diretoria de Ensino José Raimundo Cristóvam

Jose Frederico Rehme

Comitê de Ensino Carlos Nazareth Motta Marins

Eduardo de Oliveira Silva Bicudo Gunnar Bedicks Luana Bravo Tatiana Aires Tavares

Diretoria de Tecnologia Ana Eliza Faria

Alexandre Yoshida Sano

Comitê de Tecnologia Carlos Fini

Iury Saharovsky José Antônio de Souza Garcia Luiz Fausto Paulo Henrique C. V. de Castro Roberto Primo

Ana Sílvia Médola – UnespAlexandre Pohl –UTFPRAndré Barbosa – EBC/SETCarlos Alberto Ynoguti – INATELCarla Pagliari - IMECarlos Montez – UFSCCarlos Nazareth Motta Marins – INATEL/SETCosette Castro – UCBDébora Christina Muchaluat Saade – UFFEduardo Antonio Barros da Silva – COPPE/UFRJFlavio Archangelo – LABRE/SETGuido Lemos – UFPBGunnar Bedicks – Mackenzie/SETLuciano Leonel Mendes – INATELLuís Geraldo Pedroso Meloni – FEEC/UnicampLuiz Biscainho – COPPE/UFRJLuiz Fernando Gomes Soares - PUC-RJSandro Fasolo – INATELTatiana Tavares – UFPB/SETValdecir Becker – UFPB/SETYuzo Iano – UNICAMPYvana Fechine – UFPE

Diretoria da SET

Comitê Científico

Editor

Projeto gráfico / Versão eletrônica

Valdecir Becker

Solange Lorenzo

Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 5: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Sumário

“Pesquisas em ambientes digitais - TV - Internet - radio - cinema”

06 Apresentação

ARTIGOS

Wyllian Bezerra da Silva 08 Métrica sem referência baseada em redes neurais

para avaliação objetiva de qualidade de vídeo digital

Eduardo Santos Bueno 16 Results of field tests of the ISDB-T system at 8 MHz

in Botswana

Willians Cerozzi Balan

Ramon Maia Borges 23 Análise qualitativa de uma Rede SFN operando com

troca de Canal Virtual entre as Estações

Retransmissoras

José Riccardo Bonavita 27 A Televisão Corporativa como Canal Midiático

34 O aplicativo de check-in de TV como ferramenta

de engajamento na era transmídia

44 A televisão a seu tempo: Netflix inova com produção

de conteúdo para o público assistir como e quando

achar melhor, mesmo que seja tudo de uma vez

52 A (re) valorização do locutor na internet: estratégias

do rádio em um cenário de reconfiguração digital

61 Modelo de análise da audiência baseado no contexto

Alexandre de Almeida Prado Pohl

B

Edson Lemos Horta

Gunnar Bedicks JrCristiano Akamine

Bruna UeharaJoão Paulo Polo

Juliana KuleszaUlysses de Santi Bibbo

Daniel GambaroEduardo Vicente

Valdecir BeckerMarcelo Zuffo

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013

Page 6: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Apresentação

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

6 Revista de Radiodifusão • v. 07 • n. 08 • 2013

Esta edição da Revista de Radiodifusão tem como foco pesquisas em ambientes digitais, especificamente

rádio, TV, e internet. Os artigos abordam o desenvolvimento tecnológico, científico, computacional,

comunicacional, social e sociológico destes meios de comunicação. A constante mutação e as dúvidas sobre

a capacidade destes veículos diante da convergência tecnológica e constantes mudanças mercadológicas

permeiam praticamente todos os trabalhos. Percebe-se uma clara evolução nas pesquisa e no pensamento

crítico em relação ao entendimento das necessidades científicas de toda cadeia de valor da radiodifusão.

Como proposta de interdisciplinaridade do audiovisual, a Revista de Radiodifusão dá mais um passo

importante ao mesclar vídeo digital, testes de transmissão com segunda tela, rádio, TV corporativa, novas

formas de ver o conteúdo audiovisual e suas formas de produção e consumo, análise teórica da medição da

audiência. Trata-se de um retrato interdisciplinar do desenvolvimento do mercado de radiodifusão, que não

existe sem uma engenharia forte, conteúdo com qualidade e um mercado consumidor plenamente

compreendido.

Alem do Call For Papers tradicional da Ravista, para esta edição também foram selecionados os três

melhores artigos do Congresso da SET deste ano, realizado em agosto. A Revista recebeu um total de 17

submissões, e, pós o processo de revisão do Comitê Científico, foram aprovados oito trabalhos.

Segue a relação dos trabalhos aprovados, e respectivos resumos.

Métrica sem referência baseada em redes neurais para avaliação objetiva de qualidade de vídeo digital, de Wyllian Bezerra da Silva e Alexandre de Almeida Prado Pohl. O trabalho apresenta uma métrica

sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural artificial que usa

uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto

realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados

experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência

completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser

usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como

IPTV e TV digital.

Results of field tests of the isdb-tb system at 8 mhz in Botswana, de Eduardo Santos Bueno, Gunnar

Bedicks Jr., Cristiano Akamine e Edson Lemos Horta. Botswana performed field tests of the Integrated

Services Digital Broadcasting - Terrestrial version B (ISDB-TB) system in order to choose which standard

should be used by the country. This paper presents the results of performance tests of the ISDB- TB system

and an analysis of test results from the cities of Gaborone, Mahalapye, Maun and Tsabong. The system was

configured with an 8 MHz bandwidth and central frequency of 770.000 MHz. The system was evaluated with

fixed reception using a single monopole antenna. Data collected in the field were used to analyze the power

level, C/N ratio, Bit Error Rate (BER) and Quasi Error Free (QEF). The results corroborate na adequate

reception of the test signal.

Page 7: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 7

Análise Qualitativa de uma Rede SFN Operando com troca de Canal Virtual entre as Estações Retransmissoras, de Ramon Maia Borges. O trabalho tem por finalidade investigar o comportamento de

uma rede SFN (Single Frequency Network) dentro do padrão ISDB-T (Integrated Services Digital

Broadcasting – Terrestrial), na condição em que as estações retransmissoras utilizem canais virtuais

distintos. Resultados práticos demonstram a possibilidade de operação da rede na situação descrita, assim

como as penalidades decorridas desta configuração.

A Televisão Corporativa como Canal Midiático, de José Riccardo Bonavita. Este artigo tem por finalidade

analisar a forma como empresas do mundo inteiro usam a linguagem universal da mídia televisiva e, através

de transmissões de broadcasting (transmissões de televisão via satélite ou intranet), para filiais e pontos de

reunião de seus funcionários e colaboradores espalhados em uma determinada região de um país, ou

mesmo em vários países, simultaneamente, copiam os modelos criados pela livre manifestação do canal

midiático televisivo como forma de tentar integrar seus funcionários e repassar o discurso e a mentalidade

corporativa e seus valores.

O aplicativo de check-in de TV como ferramenta de engajamento na era transmídia, de Bruna Uehara e

João Paulo Polo. Este artigo se propõe a discutir de que maneira um aplicativo (também chamado de app) de

check-in de TV pode colaborar com a fidelização e engajamento de telespectadores, tendo em vista o

fenômeno atual da segunda tela. Refletir sobre como as empresas de comunicação podem utilizar esse

comportamento do público e o panorama transmidiático com o intuito de alavancar a audiência da emissora e

atrair anunciantes.

A televisão a seu tempo: Netflix inova com produção de conteúdo para o público assistir como e quando achar melhor, mesmo que seja tudo de uma vez, de Juliana Kulesza e Ulysses de Santi Bibbo.

Este artigo analisa a entrada do serviço de streaming online Netflix no mercado da produção de conteúdo

original, a partir do estudo de caso da série House of Cards. Também se predispõe a demonstrar uma

mudança de paradigma no setor, introduzindo a discussão sobre uma nova forma de consumo de conteúdo,

definida pelas possibilidades geradas por novas tecnologias e pela voracidade de seu público. Este novo

cenário é palco do embate entre majors de TV a cabo, até então dominantes no mercado de conteúdo pago,

com a recém chegada Netflix, onde quem ganha é o consumidor que terá mais opções de escolha.

A (re) valorização do locutor na internet: estratégias do rádio em um cenário de reconfiguração digital, de Daniel Gambaro e Eduardo Vicente. O presente artigo traça uma breve reflexão sobre o modo

como as tecnologias digitais estão reconfigurando as formas de produzir e consumir rádio. O principal

argumento gira em torno da figura do locutor de rádio FM e sua renovada importância em estratégias de

vinculação e fidelização da audiência, aliada a outras estratégias que podem ser empreendidas pelas

emissoras de rádio. Para tanto, foi desenvolvida uma pesquisa com locutores do dial FM paulistano, que

expressaram suas opiniões sobre o cenário.

Modelo de análise da audiência baseado no contexto, de Valdecir Becker e Marcelo Zuffo. As complexas

relações e mediações entre representações mentais e os consequentes comportamentos são subestimadas

nos modelos tradicionais de medição da audiência. Este artigo propõe um novo modelo teórico, que

incorpora a base da mediação atual, e expande a análise buscando as origens da necessidade e da

motivação da atividade ver TV.

Boa leitura,

Valdecir BeckerEditor

Page 8: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Métrica sem referência baseada em redes neuraispara avaliação objetiva de qualidade de vídeo digital

Wyllian Bezerra da [email protected]

Alexandre de Almeida Prado [email protected]

8 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 9: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAIS PARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITAL

Wyllian Bezerra da Silva, Alexandre de Almeida Prado Pohl

Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, Brasil

[email protected], [email protected]

Resumo: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural artificial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital. Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural artificial.

1. INTRODUÇÃO

Durante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codificação e decodificação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desafio no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].

A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de

métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].

A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High Definition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no fluxo de bits para avaliação de qualidade de vídeo codificado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.

Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.

Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 9

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 10: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

10 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

2. AVALIAÇÃO DE QUALIDADE DE VÍDEO

O processo de avaliação de qualidade de vídeo pode ser realizado com a aplicação de métricas subjetivas ou objetivas. As métricas subjetivas estimam a qualidade do vídeo por meio de avaliadores humanos. Logo, exigem um alto custo, pois necessitam de uma grande quantidade de recursos humanos e apresentam problemas quanto aos requisitos de imparcialidade e reprodutibilidade, tornando-se inapropriadas em sistemas de radiodifusão ou em provedores de conteúdo [10], [11]. Por outro lado, as métricas objetivas são baseadas em modelos matemáticos, cujo objetivo é produzir um escore de qualidade que emule a percepção do SVH. Além disso, as métricas objetivas requerem baixo custo de implementação (quando comparadas com as métricas subjetivas) e não apresentam problemas quanto à reprodutibilidade e imparcialidade.

As métricas objetivas para avaliação de qualidade de vídeo podem ser classificadas em três categorias: (i) métricas de referência completa (Full-Reference – FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).

2.1. Métricas FR

As métricas FR requerem o vídeo de referência (fonte) no cálculo do escore de qualidade. Estas métricas são amplamente utilizadas no processo de validação de métricas RR ou NR, por meio da comparação de desempenho definida pelas recomendações do Grupo de Especialistas em Qualidade de Vídeo (VQEG – Video Quality Experts Group) que é um órgão de padronização internacional de métricas subjetivas e objetivas de qualidade de vídeo. Dentre as métricas FR, destacam-se o PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural SIMilarity index) [12] e MS-SSIM (Multi-Scale Structural SIMilarity index) [13].

O PSNR é uma métrica FR baseada no erro pixel a pixel de fácil implementação. Entretanto, apresenta baixa correlação com o SVH [14]. A sua medida é processada sobre o erro quadro a quadro, i.e., entre o quadro original x e o quadro y . A expressão a seguir define o PSNR para um conjunto de quadros F .

201

1PSNR 20log ,F

f

f f

vF MSE

(1)

com

2

0 0

1MSE , , , , ,N M

fi j

x f i j y f i jNM

(2)

em que o termo fv é igual a (2 1)k , cujo k é o número de bits por pixel, i.e., é a componente de luminância do quadro f . Os termos , ,x f i j e

, ,y f i j são os valores de luminância do quadro de origem e degradado, respectivamente. As componentes bidimensionais são representadas pelo

número de colunas N e pelo número de linhas M . O termo fMSE é definido como erro quadrático médio ou MSE (Mean Square Error).

A métrica SSIM baseia-se no fato de que o SVH é fortemente adaptado para extrair informações das características estruturais de um quadro ou imagem. Logo, uma medida de similaridade estrutural (ou distorção) pode prover boa aproximação para a qualidade perceptual de um vídeo [3, 7–9]. Sejam x e y dois sinais não-negativos, em que y é o sinal degradado e x é o sinal original (sem perda de qualidade), a medida de similaridade é utilizada como um índice quantitativo de qualidade do sinal distorcido, ou seja, x é tomado como a referência para medir a qualidade de y . A métrica SSIM possui diversas extensões, dentre as quais a versão MS-SSIM, proposta por Wang et al. [13] que assume uma abordagem multiescalar.

2.2. Métricas RR

As métricas de referência reduzida retiram certa quantidade de características do vídeo original (fonte), baseadas em componentes espaciais, temporais, no domínio da frequência ou no fluxo de bits (bitstream). Este tipo de métrica é amplamente utilizada no monitoramento de transmissões em rede [17]. Neste tipo de cenário de aplicação, o vídeo é transmitido com uma sequência de informação codificada (overhead) e no lado receptor ocorre a sua decodificação, seguido pelo cálculo do índice de qualidade, o qual é obtido por meio da comparação entre a representação reduzida da informação nos pares emissor e receptor [18]. Tipicamente, métricas RR são implementadas por meio de funções, divididas em duas etapas [19]: (i) cálculo do erro entre os vídeos original e distorcido, constituído pela diferença de suas características, a fim de compor a representação reduzida da informação; (ii) função que agrupa os erros ou diferenças para obter um índice de qualidade global. Algumas métricas RR exploram propriedades dos artefatos, por meio da extração de características e um modelo de parametrização [20] com foco em tipos específicos de distorções (artefatos). Esta abordagem é encontrada em Silva et al. [17], cujo cálculo do escore de qualidade é baseado na diferença de atividade dos coeficientes DCT (Discrete Cosine Transform) em um macro bloco com resolução de 16 16 pixels.

2.3. Métricas NR

As métricas NR extraem características relacionadas ao SVH do vídeo distorcido, i.e., na recepção do sinal de vídeo [14]. Tipicamente, há duas abordagens no desenvolvimento destas métricas: (i) extração dos parâmetros sobre o fluxo de bits, tais como a taxa de compressão, informações relacionadas ao GoP (Group of Pictures), estimação de movimento, perfil e nível de codificação, bem como o parâmetro de quantização ou QP (Quantization

Page 11: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Parameter) [21–25]. Métricas NR apresentam maior complexidade quando são aplicadas em vídeo, devido à variação temporal dos quadros, conteúdos das cenas e à dificuldade de compreensão das características do SVH [26]. Assim, algumas métricas dessa categoria exploram características espaciais e temporais na estimação de qualidade de vídeo [21].

3. MÉTODO PROPOSTO

O método proposto, denominado NRVQA-ELMtc (No-Reference Video Quality Assessment using Extreme Learning Machine algorithm with termination criteria) [27] combina características espaciais e temporais, por meio de uma rede neural artificial SLFNs usando o algoritmo de treinamento ELM [28] com a implementação de um simples critério de parada.

3.1. Características espaço-temporais

As características espaciais incorporadas no método proposto são baseadas em medidas de artefatos em vídeo digital, i.e., distorções de blocagem e borramento desenvolvidas por Wang et al. [20]. Assim, a componente de luminância do quadro f é representada por ( , , )y f i j com 1,i M e 1,j N , em que M e N são os números de linhas e colunas, respectivamente, de um quadro. Logo, as diferenças de luminância ao longo das linhas e colunas são representadas, respectivamente, pelas expressões a seguir.

, , , , 1 , , , 1, 1 ,

, , , 1, , , , 1, 1 .h

v

d f i j y f i j y f i j j N

d f i j y f i j y f i j i M

(3)

O efeito de blocagem pode ser estimado pela média das diferenças entre as bordas dos blocos da DCT (Discrete Cosine Transform) nas direções horizontal e vertical para uma sequência F de quadros, conforme mostra a Equação (4), com um macrobloco de dimensão , cujo tamanho típico é de 8 [20].

11

1 1 1

11

1 1 1

1 , , 1 ,1

1

1 , 1 , .1

1

NF M

h hf i j

MF N

vi j

vf

B d f i jNF M

B d f i jMF N

(4)

A medida de blocagem em uma sequência de vídeo com F quadros é determinada pela média entre

hB e vB , caracterizando a medida B , conforme a expressão a seguir.

.2

h vB BB (5)

Os efeitos de borramento são estimados pelo cálculo da redução de atividade entre os blocos , em que é usada a medida de blocagem nas direções horizontal e vertical, conforme as expressões

1

1 1 1

1

1 1 1

, , ,1 1

, ,1

.1

F M N

h h hf i j

F M N

v vf

vi j

A d f i j BF M N

A d f i j BF N M

(6)

A medida de borramento, representada por A , conforme a Equação (7), é determinada pela média entre hA e vA .

.2

h vA AA (7)

O segundo fator que contribui para a detecção do artefato de borramento é baseado na taxa de cruzamento por zero (Zero Crossing – ZC) nas direções horizontal e vertical, conforme as expressões a seguir.

2

1 1 1

2

1 1 1

1 , , ,2

1 , , ,2

F M N

h hf i j

F M N

v vf i j

Z z f i jF M N

Z z f i jF N M

(8)

em que os termos hz e vz são determinados por

1, na direção horizontal, , ,

0, caso contrário

1, na direção vertical , , .

0, caso contrário

h

v

z f i j

z f i j

(9)

Assim, a medida de borramento Z é determinada pela média entre as componentes hZ e vZ .

.2

h vZ ZZ (10)

O método proposto também incorpora três características temporais no treinamento da rede neural SLFN com o algoritmo ELM.

A primeira característica temporal é a diferença de movimento entre quadros adjacentes, representada pela variável TI (Temporal perceptual Information) [31] que considera os valores de luminância de pixels localizados em uma mesma região de um quadro, conforme a expressão a seguir.

2

1 , , ,1

F

fTI m f i j

F

(11)

em que o número total de quadros é F e , ,m f i j é o desvio padrão da diferença de movimento (diferença de luminância) entre o quadro atual , ,y f i j e o quadro anterior 1, ,y f i j . A segunda característica temporal é a média da

diferença absoluta (Mean Absolute Difference – MAD)

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 11

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 12: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

12 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

[31] entre quadros sucessivos, representada pela Equação (12) que define a medida global da MAD para todos os quadros de um vídeo.

2 1 1

1 , , 1, , .1

F M N

f i jMAD y f i j y f i j

M N F

(12)

A terceira característica temporal é a média da diferença absoluta ponderada (weighted Mean Absolute Difference – MADw) [32], a qual mede o grau de variação das cenas de um vídeo que considera a cena atual de um quadro f e do quadro anterior 1f , conforme a expressão:

2 1

1 .1

Ff

f f

MADMADwF MAD

(13)

Assim, o método proposto combina as características espaciais e temporais em uma matriz

, , , , ,f f f f f f fA B Z TI MAD MADwx , em que f é o

número de amostras de vídeo. A Figura 1 apresenta as características temporais espaciais de dezessete bases de dados de vídeos (denominada superconjunto S) usadas neste trabalho e reportadas em [27]. A recomendação ITU-T P.910 [31] define a medida SI (Spatial perceptual Information) como informação espacial perceptual. A inspeção visual dessa figura mostra que as amostras de vídeo usadas neste trabalho apresentam uma grande variação espaço-temporal.

Fig. 1. Características espaciais e temporais do superconjunto

S com 216 amostras de referência

3.2. Métrica NRVQA-ELMtc

O algoritmo ELM [28] desenvolvido para o treinamento de uma rede SLFN atribui pesos e polarizações (biases) de maneira aleatória, segundo uma distribuição uniforme. O treinamento compreende N amostras distintas representadas pela variável

, , , 1, ,n mf f f f f N x t x t , cujo cálculo é

conforme a expressão

1

, 1, , ,K

K i j j f j ff

f g b f N

x w x o (14)

em que fo é a saída (escore objetivo), ( )g x é a função de ativação e j é o peso que conecta o j-ésimo neurônio da camada oculta ao neurônio de saída. De acordo com [28], uma rede SLFN com K nós na camada oculta e uma função de ativação ( )g x pode apresentar um erro médio próximo de zero, i.e.,

10

Kf f

f o t . Logo, há parâmetros j , jw e jb tal

que

1

, 1, , ,K

j j f j ff

g b f N

w x t (15)

em que ft é o vetor alvo (escores subjetivos), T

1, ,j j jnw w w é o vetor de peso que conecta o j-

ésimo neurônio da camada oculta ao neurônio da camada de entrada, jb denota a polarização (bias) do

j-ésimo neurônio da camada oculta, j fw x é o

produto interno de jw e fx . A Figura 2 ilustra o algoritmo ELM empregado em uma arquitetura de rede neural SLFN.

x i

1

βj

N

1

j

K

tibj

N input neuron K hidden neuron output neuron

β1

βK

wj

Fig. 2. Arquitetura de uma rede neural SLFN usando algoritmo

de treinamento ELM O sistema linear da Equação (16) resume o método

do algoritmo ELM.

,Hβ T (16)

em que a matriz da camada oculta é representada por

1, , and 1, ,fjh f N j K H com a primeira

linha da matriz de características fx igual a T

1 2, , ,f f f fnx x x x , i.e., a primeira linha é igual a

1 1 1 1 1 1 1, , , , ,f f f f f f fA B Z TI MAD MADwx . A matriz de

saída e o vetor alvo (target) são definidos como

Page 13: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

T1 , K β β β e T

1, , N T t t , respectivamente. O

termo T1 , 1, ,j jmj j K β β β denota o vetor de

peso que conecta o j-ésimo neurônio da camada oculta e os neurônios de saída. Hung et al. [28] propuseram a atribuição aleatória de pesos aos parâmetros jw e jb , a fim de seja obtido um pequeno erro não-nulo durante o treinamento. Considerando o sistema linear da Equação (17), os pesos da camada de saída podem ser aproximados por

†β H T (17)

em que †H é definida como matriz inversa generalizada de Moore-Penrose (MP) [33] da matriz de saída da camada oculta H . Além disso, o

conjunto de treinamento , nó oculta K e uma função de ativação g x , e.g., função de base radial (Radial Basis Function – RBF), hard-limiting (hardlim), sigmoidal (sig) e seno (sin). Em resumo, o algoritmo ELM compreende três etapas [28]:

i) Atribuição aleatória dos pesos de entrada jw e

polarizações jb ;

ii) Cálculo da matriz da camada de saída H ; iii) Cálculo dos pesos de saída †: β β H T .

O método NRVQA-ELMtc [27] implementa um simples critério de parada no treinamento da rede neural SLFN, quanto à atribuição aleatória dos pesos

jw e jb . Embora este critério não seja direcionado, busca os pesos relacionados com o menor RMSE

(Root-Mean-Square Error) entre a saída desejada (escore subjetivo) e o escore objetivo na fase de treinamento com k iterações (tipicamente, 100k ) e N neurônios na camada oculta. Além disso, conforme estudo realizado em [27], caso o RMSE seja menor do que 0,5 o algoritmo cessa a busca pelos parâmetros

jw e jb .

4. RESULTADOS EXPERIMENTAIS

Esta seção apresenta os resultados de acurácia, i.e., os coeficientes de correlação linear de Pearson (Pearson Linear Correlation Coefficient – PLCC) [34], [35], entre os escores objetivos e subjetivos de 2627 amostras de vídeo estudadas em [27].

A Figura 3 compara a acurácia (PLCC) entre as métricas de referência completa (FR) PSNR e MS-SSIM com o método proposto (NRVQA-ELMtc) para as 2627 amostras de vídeo, pertencentes a 17 bases de dados de vídeo disponibilizadas por diversas instituições e laboratórios [27]. A função de ativação usada na rede neural SLFN foi o seno (sin) com o número de amostras de teste igual ao número de neurônios na camada oculta ( N ). O método de validação cruzada múltipla (K-fold) foi usado com o objetivo de gerar uma distribuição de acurácia, a qual foi analisada por meio do diagrama de caixa (box-plot) [36], em que o traço, o círculo e o quadrado, ambos em vermelho, representam a mediana, a média e o desvio padrão, respectivamente. Destaca-se que neste trabalho foi empregada uma validação cruzada com um grande número de amostras de treinamento-teste com 100K , i.e., cada caixa do box-plot comporta 100 experimentos distintos. Tipicamente, a literatura apresenta trabalhos no campo da avaliação

Fig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtc

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 13

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 14: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

14 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

de qualidade de vídeo com K entre 5 e 10 [37], [38]. Pela inspeção visual da Figura 3 observa-se que o

desempenho do método proposto é superior às métricas FR, em quaisquer condições de teste, i.e., para qualquer quantidade de amostras de teste (número de neurônios na camada oculta) entre 25 e 500. Em especial, para 50N , o método proposto apresenta valores de PLCC, em termos da média e mediana, acima de 0,8, denotando uma forte associação entre os escores objetivos e subjetivos, na tarefa de predição de qualidade de vídeo. Isto ocorre devido à grande quantidade de amostras de vídeo usadas no treinamento, e.g., para 300N foram usadas 2327 amostras de treinamento, ou seja, mesmo usando pares de treinamento-teste disjuntos, o método proposto mostra uma acurácia superior às métricas de referência completa. A assimetria positiva, i.e., a maior concentração da acurácia entre o segundo quartil (mediana) e o terceiro quartil, na distribuição do box-plot nos testes com 300 e 500 neurônios na camada oculta, indica que o método proposto apresenta um desempenho expressivo em comparação com as métricas FR.

Entretanto, mesmo para N entre 25 e 50, o método proposto apresentou uma acurácia maior do que as métricas FR, cujo melhor resultado foi para

25N com o desvio-quartil (amplitude interquartílica) confinado entre 0,65 e 0,8. Além disso, este resultado também apresentou assimetria positiva com a média do PLCC em torno de 0,75.

5. CONCLUSÃO

Este trabalho apresentou uma métrica NR baseada em uma rede neural artificial SLFN, cujo treinamento é determinado pelo algoritmo ELM, o qual considera características espaço-temporais e os escores subjetivos (alvos) extraídos de 2627 amostras treinamento. Além disso, este trabalho propõe uma extensão do algoritmo ELM por meio de um simples critério de parada, a fim de que sejam obtidos parâmetros da rede neural artificial relacionados com o menor RMSE. Tipicamente, a comparação entre métricas FR e NR é injusta, devido à ausência do vídeo de referência na obtenção do escore de qualidade em métricas NR. Entretanto, os resultados experimentais mostram que o método proposto apresentou desempenho superior às métricas de referência completa PSNR e MS-SSIM, sobretudo, quando o número de amostras de teste e de neurônios na camada oculta da rede SLFN é maior do que 250. Logo, a métrica NRVQA-ELMtc pode ser empregada no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV (Internet Protocol Television), TV digital ou em dispositivos móveis, tais como ultrabooks, smartphones, tablets e em aparelhos WiDi (Wireless Display).

REFERÊNCIAS [1] S. Winkler, “Issues in vision modeling for perceptual

video quality assessment,” Signal Processing, vol. 78, no. 2, pp. 231–252, 1999.

[2] Z. Wang and A. C. Bovik, Modern image quality assessment. San Rafael, CA: Morgan & Claypool, 2006.

[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual quality metrics: A survey,” Journal of Visual Communication and Image Representation, vol. 22, no. 4, pp. 297–312, May 2011.

[4] S. S. Hemami and A. R. Reibman, “No-reference image and video quality estimation: Applications and human-motivated design,” Signal Processing: Image Communication, vol. 25, no. 7, pp. 469–481, 2010.

[5] Z. Wang and A. Bovik, “Reduced- and No-Reference Image Quality Assessment,” IEEE Signal Processing Magazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.

[6] R. V. Babu, S. Suresh, and A. Perkis, “No-reference JPEG-image quality assessment using GAP-RBF,” Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.

[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-Reference Perceptual Video Quality Measurement for High Definition Videos Based on an Artificial Neural Network,” in Computer and Electrical Engineering, 2008. ICCEE 2008. International Conference on, 2008, pp. 424–427.

[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-reference video quality measurement using neural networks,” in 2009 16th International Conference on Digital Signal Processing, 2009, pp. 1–4.

[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “No-reference image quality assessment using modified extreme learning machine classifier,” Applied Soft Computing, vol. 9, no. 2, pp. 541–552, Mar. 2009.

[10] A. M. Eskicioglu and P. S. Fisher, “Image quality measures and their performance,” IEEE Transactions on Communications, vol. 43, no. 12, pp. 2959–2965, 1995.

[11] U. Engelke and H.-J. Zepernick, “Perceptual-based Quality Metrics for Image and Video Services: A Survey,” in Proceedings EuroNGI Conf. Next Generation Internet Networks, 2007, pp. 190–197.

[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P Simoncelli, “Image quality assessment: from error visibility to structural similarity.,” IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600–612, 2004.

[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscale structural similarity for image quality assessment,” in The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, 2003, vol. 2, no. 1, pp. 1398–1402.

[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital Video Image Quality and Perceptual Coding,” Journal of Electronic Imaging, vol. 16, no. 3, 2007.

[15] Z. Wang and A. C. Bovik, “A universal image quality index,” IEEE Signal Processing Letters, vol. 9, no. 3, pp. 81–84, Mar. 2002.

[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and Hue Similarity for Color Image Quality Assessment,” in 2009 International Conference on Electronic Computer Technology, 2009, pp. 329–333.

[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “A Reduced-Reference Video Quality Assessment Method based on the Activity-Difference of DCT Coefficients,”

Page 15: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.

[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.

[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.

[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.

[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.

[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.

[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.

[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.

[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.

[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.

[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.

[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.

[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.

[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.

[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.

[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.

[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.

[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard definition television, Phase I,” 2009.

[35] VQEG, “Report on the validation of video quality models for high definition video content,” 2010.

[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.

[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.

[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 15

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 16: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

Results of field tests of the ISDB-T system at 8 MHz in Botswana

Eduardo Santos [email protected]

Gunnar Bedicks [email protected]

Cristiano [email protected]

Edson Lemos [email protected]

B

16 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 17: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 17

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

RESULTS OF FIELD TESTS OF THE ISDB-TB SYSTEM AT 8 MHz IN BOTSWANA

Eduardo Santos Bueno 1, Gunnar Bedicks Jr. 2, Cristiano Akamine 3, Edson Lemos Horta 4

1 Mackenzie, São Paulo, Brasil, [email protected] 2 Mackenzie, São Paulo, Brasil, [email protected]

3 Mackenzie, São Paulo, Brasil, [email protected] 4 Mackenzie, São Paulo, Brasil, [email protected]

Abstract: Botswana performed field tests of the

Integrated Services Digital Broadcasting - Terrestrial version B (ISDB-TB) system in order to choose which standard should be used by the country. This paper presents the results of performance tests of the ISDB-TB system and an analysis of test results from the cities of Gaborone, Mahalapye, Maun and Tsabong. The system was configured with an 8 MHz bandwidth and central frequency of 770.000 MHz. The system was evaluated with fixed reception using a single monopole antenna. Data collected in the field were used to analyze the power level, C/N ratio, Bit Error Rate (BER) and Quasi Error Free (QEF). The results corroborate na adequate reception of the test signal. Index Terms: ISDB-TB, Bandwidth, Fixed Reception.

1. INTRODUCTION

This paper presents the results of performance tests for the ISDB-TB standard, operating at 8 MHz, in four cities of Botswana: Gaborone, Mahalapye, Maun and Tsabong. The system was evaluated on channel 58, with a frequency of 770.000 MHz. ISDB-TB was designed to provide high quality audio and picture for fixed and mobile reception. It was also designed to deliver flexibility, interactivity and expansion capabilities [1].

ISDB-TB is derived from the Japanese ISDB-T system and employs the H.264 video codec, the MPEG-4 AAC HE audio codec and a Brazilian middleware (DTVi). It uses VHF (channels 7-13) and UHF (channels 14-69) bands, with a 6 MHZ bandwidth [2-8]. This system was developed in Brazil, where its performance operating at 6 MHz for fixed, mobile and portable reception was demonstrated. [7-8]. The research conducted in order to approve the system also influenced its adoption by other countries, such as Peru, Argentina, Chile, Venezuela, Ecuador, Costa Rica, Paraguay, Philippines, Bolivia, Uruguay and the Republic of the Maldives [7], [8]. Recently, Botswana adopted ISDB-TB after analyzing the results presented in this paper.

2. ISDB-T 8 MHZ

The ISDB-T system was developed in Japan. It uses BST-OFDM modulation with 13 segments and operates using 6, 7 or 8 MHz channels (BWTV) [9]. Each segment contains a carrier set that occupies 1/14 x BWTV [10]. Thus, the bandwidth of one segment is equal to 571.40 KHz when a BWTV of 8 MHz is used.

The 13 segments can be combined in up to three hierarchical layers, A, B and C. The ISDB-T transmission system can be represented by three stages: re-multiplexing, channel coding and modulation [11].

In the first stage, the MPEG-2 TS (188 bytes) coming from the multiplexing stage is responsible for BTS generation. The BTS is composed of a single TS of 204 bytes and a constant bitrate of 4 x FsIFFT (sampling frequency of the Inverse Fast Fourier Transform) at the modulator. This frequency is calculated from the IFFT size and the effective duration of the OFDM symbol. For 8 MHz, FsIFFT = 8192/756 µs = 10.8359 MHz, yielding a BTS bitrate of 43.3439 Mbps. BTS is composed of the TSP from each layer and null packets, called BTS frames. The packets must be ordered to guarantee the hierarchical transmission of a single TS and to minimize processing by the receiver [12]. The null packets are inserted to maintain the constant bit rate independent of the modulation parameters [11]. The channel coding is formed from a Reed Solomon block (188,204,8), an energy dispersal block formed by a 15-bit PRBS generator, a byte convolutional interleaver, a convolutional coder with a mother code rate of 1/2 (G1 = 171oct; G2 = 133oct) and puncture adjust for the rates R = 1/2, 2/3, 3/4, 5/6 or 7/8.

At the modulation stage, the channel coding signal is parallelized and processed by a MUX convolutional interleaving. Mapping is done for QPSK/DQPSK, 16-QAM or 64-QAM modulations. The layers are combined and time interleaved using 0 ms, 100 ms, 200 ms or 400 ms intervals [1], [9], [13]. The second stage of the modulation consists of one OFDM modulator operating with an inverse fast Fourier transform. The carrier amount (Nc) is 1405 in mode 1 (2K), 2809 in mode 2 (4K) or 5617 in mode 3 (8K) [9]. The output of the OFDM modulator is appended with a cyclic prefix formed by a copy of the end of the OFDM symbol. This prefix can be adjusted for GI 1/4, 1/8, 1/16 or 1/32, providing robustness against Inter-Symbol Interference (ISI) [14].

As the FsIFFT is directly related to the modulator bandwidth, this stage determines the occupation of the OFDM spectrum. The useful bandwidth BW used by the 13 segments is 7.43 MHz. Independent of BWTV, the re-multiplexing, channel coding and modulation stages are the same. The useful bitrate for segment Rb can be calculated using (1). Dcs is the data carrier amount: 96 in mode 1, 192 in mode 2 or 384 in mode 3. Nb is number of bits per symbol: 2 for QPSK, 4 for

Page 18: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

18 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

16-QAM or 6 for 64-QAM. RS, the Reed Solomon code ratio, is 188/204.

(1)

(2)

(3)

ISDB-T was designed and tested at 6 MHz [2], [4],

[10] and [15-17]. However, the performance does not change at different bandwidths. Planning criteria, including protection indices, for terrestrial digital television services were designed and tested at 8 MHz [18]. It is recommended that a receiver’s tuner unit be compliant with ITU-R BT.1368-9, (see Tables 1 and 2). The transmission parameters employed to obtain the measurements, which are presented in Table 2, were 64-QAM modulation and an inner code of 3/4. Tables 3 and 4 presente the receiver parameters used in the tests.

The maximum signal level injected at the receiver input was -20 dBm in order to eliminate any risk of damage.

Table 1. Sensitivy at Receiver Input

Frequency [MHz]

UHF 600

System DQPSK 1/2

QPSK 1/2

16-QAM 3/4

64-QAM 7/8

Pmin [dBm] -92 -93 -84 -76

(C/N) [dB] 6.20 4.90 14.60 22.00

Table 2. Protection Ratios

Undesirable signal Item Protection ratio [dB]

Digital transmission ISDB-T

Co-channel +20 Lower adjacent channel -30 Upper adjacent channel -30

Analog transmission I/PAL

Co-channel +5 Lower adjacent channel * Upper adjacent channel *

* Not established by a standard

Table 3. Sensitivy at Receiver Input [dBm]

Modulation Scheme

Inner-code coding ratio

1/2 2/3 3/4 5/6 7/8 QPSK -94.2 -92.9 -91.3 -90.7 -89.9

16QAM -89 -86.7 -85.9 -84.5 -83.7 64QAM -84.1 -81.3 -80 -77.5 -76.1

Table 4. Transmission Parameters and Required C/N Ratio [dB]

Modulation scheme

Inner-code coding ratio

1/2 2/3 3/4 5/6 7/8 QPSK 3.3 4.9 5.7 6.8 7.6

16QAM 8.9 11.2 12.3 13.4 14.3 64QAM 14.2 17.2 17.9 19.6 22

3. MEASUREMENT SYSTEM INFRASTRUCTURE

Prior to the field tests, some laboratory tests were made with two objectives in mind. The first was determining the receiver behavior for specific BER values. The second was analyzing the relationship between C/N and BER in a laboratory environment. This relationship can then be used as a reference for an analysis of the field tests. The laboratory tests were conducted in a controlled environment and were completely immune to external interferences.

During the field tests, the signal was transmitted from a tower 50 meters above the ground. In Gaborone, the transmission station was 1205 meters above sea level. In Mahalapye, the station was on a mountain with an altitude of 1245 meters. In Maun, the altitude was 950 meters, and in Tsabong, the altitude was 968 meters.

The same transmitter was used in each city. The RF transmission system is composed of an antenna, a transmission line and high power amplifiers, all designed for the ISDB-TB system. The transmission equipment includes a TS server, na ISDB-TB exciter, RF amplifiers and channel filters.

The system parameters were configured according the standards [9] and [19]. Table 5 shows the modulation parameters used in the tests. The transmitter used UHF channel 58 (center frequency of 770 MHz) with an 8 MHz bandwidth. The antenna was an omnidirectional Jampro Trunstile, with a gain of 8.23 dBd. The mean power level of the RF amplifiers was 1 Kw, with ERP 34 dBw (considering cable and conector losses).

Table 5. ISDB-T Parameters

Bandwidth 8 MHz Mode 3 (8K) Guard Interval 1/16 Layer A B C Segments 1 3 9 Carrier Modulation QPSK 16-QAM 64-QAM Convolutional Coder 1/2 2/3 3/4 Time Interleaving [ms] ≈287 ≈287 ≈287 Bit Rate [Mbps] 0.44 3.52 17.84

The procedure used was based on test procedures

from the evaluation of other DTV transmission systems, along with the recommendations and standards for this system. Based on [10], [20], and [21], the test plan was developed, and a measurement system was created in order to perform the field tests. The main task of the field tests was to measure the

Page 19: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

performance of a DTV system transmitting on UHF channel 58 (776 – 774 MHz). The mean signal power at an 8 MHz bandwidth, C/N ratio, BER, localization and perceived video quality, QEF [21], were measured. The subjective evaluation of the video quality was an adaptation of the ITU [20] using four grades (see Table 6). Grades “1” and “3” indicate intermittent reception, where “3” indicates that the image does not annoy the viewer and “1” indicates that the image does. BER values indicate an approximate range that would be measured at the receiver used in the tests. The BER values, obtained before the Reed Solomon coding, were measured in the laboratory.

Table 6. Quality Rating Scale

Grade Image BER 5 error free 0.00E+00 - 2.00E-04 3 slightly annoying 4.50E-04 - 2.40E-03 1 very annoying 5.50E-03 - 1.20E-02 0 no lock 1.48E-02 - 1.00E+00

The field tests were performed in conjunction with the Department of Broadcasting Services (DBS) and the Botswana Telecommunications Authority (BTA), which provided the test vehicle (Fig. 1), equipped with measurement instruments for the ISDB-TB system. The tests were performed at 41 locations in the four different cities. The reception measurements were obtained using a monopole antenna with -2.26 dBd gain, located 2.5 meters above the ground.

The setup used in the field tests is shown in (Fig. 1). An ISDB-TB receiver was used for channel decoding. Performance was measured using a subjective reception analysis, similar to [20]. An Anritsu MS8911B signal analyzer was used to measure the signal intensity level and analyze the signal characteristics. The system was calibrated, and the receiver was tested prior to the tests, in order to confirm that its sensitivity met specifications [17] and [18].

Fig. 1. Transmission System

The measurement methodology was based on [21]

and other test procedures used to evaluate DTV transmission systems [10], [22-25].

The test vehicle was moved to each predetermined test site, where the following characteristics were

recorded: time, geospatial coordinates, local environmental characteristics, urban density and traffic. The main reason for this was to characterize the test site with regard to the buildings and local traffic, which may cause unwanted effects on the signal reception. The power level, C/N and BER were also recorded for each test site. For each location, it was necessary to manually search for the receiver channel. The reception quality was measured using a subjective analysis. This analysis was performed by observing an image for sixty seconds, QEF, and grading it according to Table 4.

4. DTV FIELD TESTS RESULTS

This section describes the most important measurements for designing digital transmission systems. Many data sets were collected at each location in order to evaluate the signal reception quality under different interference and fading conditions in the field.

Four small cities in Botswana were analyzed, with a total of 41 measurement locations, covering the entire area of each city. In the results, DBA refers to the distance from the test site to the antenna, and the BER values were obtained before the Reed Solomon coding.

Gaborone, the largest city in Botswana, had 17 measurement locations (Fig. 2). In contrast to other cities in Botswana, Gaborone has many buildings and intense traffic, and some of the test sites did not have a direct line-of-sight to the transmission tower.

Fig. 2. Test Sites in Gaborone

In Gaborone, some test sites did not obtain

adequate reception, as shown on Table 7. Test sites 1, 5 and 7 were graded “0”, “0” and “1”, respectively. These locations are urban areas and 10 km from the transmission tower. The buildings caused signal obstruction and reflection. Site 12 is an industrial zone and received a grade of “0”. Site 14 is a residential zone and received a grade of “3”. Both locations are approximately 15 km from the transmission tower and are obscured by buildings in the city center. Hence, test site 12 did not receive sufficient signal intensity, and site 14 had a close-in echo of -30 dB relative to

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 19

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 20: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

20 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Table 7. Results of Field Tests at Gaborone

Site Location DBA [Km]

Signal Level [dBm]

C/N [dB] BER Grade

1 Civic Center 10.70 -79.0 7.5 1.65E-02 0 2 Tsholofelo P. 7.54 -67.0 24 0.00E+00 5 3 Broadhurst 7.62 -66.0 18 0.00E+00 5 4 Ledumang SSS 4.40 -44.6 24 0.00E+00 5 5 MMC 9.85 -78.7 11 1.65E-02 0 6 Block 7 8.90 -65.0 23 0.00E+00 5 7 Mogoditshane 10.90 -78.0 18 6.64E-03 1 8 Ledumadumane 9.09 -57.0 23 0.00E+00 5 9 Phakalane 4.30 -58.4 24 0.00E+00 5 10 Gaborone N 4.72 -67.5 22 2.20E-04 5 11 CBD 10.70 -63.0 21 2.50E-05 5 12 Gaborone W 15.35 -81.0 7 1.65E-02 0 13 Gaborone W 14.40 -74.0 21 0.00E+00 5 14 Old C. Hall 14.75 -77.8 17.1 2.50E-03 3 15 Old C. Hall 14.20 -76.6 19 4.50E-05 5 16 Block 9 14.60 -72.1 22 0.00E+00 5 17 SSKA 3.52 -59.6 20.6 0.00E+00 5

the main signal (Echo to Carrier ratio = E/C = -30 dB), due to the existence of buildings.

In Mahalapye, 7 measurements were performed (Fig. 3). This city has only houses and moderate traffic, and the transmission tower is on a mountain 1245 meters above sea level. Although there was a large distance from the city to the tower, every test site had a direct line-of-sight to the transmission tower.

Fig. 3. Test Sites in Mahalapye

Every test site in Malahapey obtained adequate

reception, with grades of “5”. The results are presented in Table 8.

In Maun, a small city with low traffic, there were 10 measurements (Fig. 4). It has three districts far from the center of the city, which caused fading, and there is an airport in the center.

In Maun, only one location did not obtain adequate reception, as shown in Table 9. Site 5 is a rural zone, 32.9 km from the transmission tower, and obtained a grade of “3”, due to the low intensity signal and multipath interference. The maximum echo, which was also a close-in echo, had an E/C = -20 dB.

Table 8. Results of Field Tests at Mahalapye

Site Location DBA [Km]

Signal Level [dBm]

C/N [dB] BER Grade

1 D. Ward 10.90 -53.1 22 0.00E+00 5 2 Tshikinyega 12.20 -60.4 23.6 0.00E+00 5 3 Xhosa 13.90 -71.5 21.6 2.00E-06 5 4 Xhosa 1 13.50 -62.3 22.3 1.00E-06 5 5 Flowertown 16.30 -59.1 24.2 0.00E+00 5 6 T. Ward 14.60 -70.9 23.4 0.00E+00 5 7 Mahalapye W 12.50 -52.0 23.6 0.00E+00 5

Fig. 4. Test Sites in Maun

Table 9. Results of Field Tests at Maun

Site Location DBA [Km]

Signal Level [dBm]

C/N [dB] BER Grade

1 Matshwane 5.40 -51.1 23 0.00E+00 5 2 Chanoga 28.40 -76.7 19.2 4.70E-05 5 3 Shorobe 33.30 -78.0 18.7 1.77E-04 5 4 Boronyane 6.60 -59.1 25.7 0.00E+00 5 5 Komana 32.90 -77.7 18.5 1.21E-03 3 6 Shashe 8.67 -68.5 21.7 2.00E-06 5 7 Bomadi 6.13 -60.0 23.4 0.00E+00 5 8 Botshabelo 5.93 -63.0 23.2 0.00E+00 5 9 Airport 2.31 -68.6 19.7 2.20E-05 5 10 Disaneng 3.33 -50.4 23.3 0.00E+00 5

In Tsabong, a small city with low traffic, 7

measurements were made (Fig. 5). In this city, only one site did not obtain adequate reception, as shown in Table 10. Site 7 is a rural zone, 26.1 km from transmission tower, next to the border with South Africa. It is surrounded by mountains and obtained a grade of “3”, due to low signal intensity.

Table 11 provides a direct comparison between the signal reception qualities of the four cities in Botswana.

Reception margin is an important parameter of DTV service. It indicates whether a digital TV signal can be received without errors and how many dB the C/N ratio may be degraded before reaching the reception limit (Fig. 6) [23], [25].

In (Fig. 6), C/N ration are on the horizontal axis, and BER measurements are on the vertical axis, using

Page 21: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 21

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Fig. 5. Test Sites in Tsabong

Table 10. Results of Field Tests at Tsabong

Site Location DBA [Km]

Signal Level [dBm]

C/N [dB] BER Grade

1 BDFCamp 0.60 -47.8 24.6 0.00E+00 5 2 Mokha 4.48 -67.7 21.5 3.00E-06 5 3 Tsabon M. 2.60 -47.7 24.5 0.00E+00 5 4 Logaganeng 12.30 -61.5 26 0.00E+00 5 5 - 6.87 -52.8 24.7 0.00E+00 5 6 Maleshe 15.80 -72.0 21.9 4.00E-06 5 7 MacCathy 26.10 -78.7 17.8 8.60E-04 3

Table 11. Fixed Service Availability

Grade Gaborone Mahalapye Maun Tsabong Total 5 70.59% 100.00% 90.00% 85.71% 82.93% 3 5.88% 0.00% 10.00% 14.29% 7.32% 1 5.88% 0.00% 0.00% 0.00% 2.44% 0 17.65% 0.00% 0.00% 0.00% 7.32%

Fig. 6. BER x C/N (Comparison of Field and Lab Test)

a logarithmic scale. The values above the points represent the grades. In the figure, the curve represents the laboratory tests, performed in a controlled environment, completely immune from external interferences. From these results, it was observed that for C/N ration above 17.5 dB, no errors are seen at the receiver. Based on the field tests, C/N

ration below 15 dB obtained a grade of “0”. These values were discarded. C/N ration between 17 dB and 18.5 dB obtained grades of “3” or “1”. C/N ration above 18.7 dB obtained a grade of “5”.

5. DTV FIELD TEST ANALYSIS

With ISDB-TB, the minimum C/N ration at the receiver in the tests was 17.9 dB (BER = 2.0E-4, before Reed Solomon coding), as characterized in the laboratory. Furthermore, the minimum field intensity for fixed reception was Pmin = -80 dBm. However, it is worth mentioning that this minimum C/N ration (17.9 dB) was obtained from subjective evaluations of video quality, QEF, under controlled conditions, without multipath interference. In the field tests, the threshold C/N ration may be higher [10], [23] and [25]. The C/N ration is an important factor for satisfactory reception (Fig. 6). The majority of test sites had the possibility of perfect reception when the C/N ratio was greater than 17.9 dB, the receiver protection ratio threshold. However, high C/N ration do not guarantee good reception. For example, a DTV receiver may fail when there is multipath interference. This is demonstrated by the existence of error in the reception signal at two test sites with C/N ratios greater than 17.9 dB.

The results for Mahalapye, Maun and Tsabong, which are shown in Table XI, are better than those for Gaborone because echoes are generally found in urban areas, where there is no direct line-of-sight without physical obstruction to the transmission tower from the reception location [10]. The effect of echoes can be seen at three test sites (1, 5 and 7) close to downtown Gaborone, 10 km from transmission tower. Test site 1 had a power level of -79 dBm, which is close to the reception threshold, and there was also a close-in echo with E/C = -4.5 dB, produced by the surrounding structures; the grade at this site was “0”. Test site 5 had a power level of -78.7 dBm, which is close to the reception threshold, and there was also a close-in echo with E/C = -10 dB; the grade at this site was also “0”. Test site 7 had a power level of -78 dBm, which is within the reception threshold, but there was a close-in echo with E/C = -10 dB. Its grade was “1”, and its C/N ratio was 18 dB, which is close to the minimum value. Test sites 12 and 14 in Gaborone were approximately 15 km from the transmission tower and also did not obtain adequate reception. Test site 12 had a power level of -81 dBm, which is insufficient signal intensity, yielding a grade of “0”. Test site 14 had a power level of -77.8 dBm, which is within the reception threshold, but there was an echo with E/C = -35 dB, and its grade was “3”. Its C/N ratio was 17.1 dB, which is less than the minimum value.

Mahalapye had the best performance because it is a secondary city, and the transmission tower was on a mountain, with direct line-of-sight to all reception locations. Thus, the signal intensity ranged from -52 dBm to -71 dBm.

In Maun, test site 5 had a power level of -77.7 dBm, which is within the reception threshold, but there was a

Page 22: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

close-in echo with E/C = -20 dB. Its grade was “3”, and its C/N ratio was 18.5 dB, which is greater than the minimum value. In Tsabong, test site 7 was 26.1 km from the transmission tower, and the power level was -78.7 dBm, which is close to the reception threshold. Its grade was “3”, and its C/N ratio was 17.8 dB, which is less than the minimum value.

In the field tests, 34 of 41 locations obtained good reception quality using a monopole antenna. Among the seven locations with poor reception, two of them had a C/N ratio greater than 17.9 dB, but the reception was intermittent. This intermitente reception was due to distortion of the received signal caused by multipath interference in addition to the noise. The other five locations did not have sufficient signal intensity above the noise level.

5. CONCLUSION

Field tests were performed at 41 location tests in Botswana for digital TV signal. These tests showed that the ISDB-TB system had a service availability of 82.93% at the test sites. The urban zones have lower C/N ratios than other locations. Furthermore, in urban areas, the probability of signal distortion due to multipath interference is very high and yields a high probability of poor reception quality. It was verified that reception quality is determined mainly by the C/N ratio and signal distortion due to multipath interference.

A digital TV modulation system is chosen based on how well it can fulfill the particular requirements and priorities of a country. Additionally, other non-technical factors, such as geographic, economic and political relations with neighboring countries, have to be considered. Each country needs to determine its needs and then study the available information about the performance of different systems in order to choose the best one. On February 26th, 2013, Botswana adopted the ISDB-TB system as its standard for digital terrestrial TV. Botswana was the first country in Africa to adopt the ISDB-TB system.

ACKNOWLEDGMENT

The authors would like to thank RH-TVD CAPES, their colleagues at the Mackenzie Digital TV and Radio Research Centre and Calvin Goiletswe from the Department of Broadcasting Services of Botswana.

REFERENCES [1] M.Takada and M.Saito, “Transmission system for ISDB-T,”

Proc. of the IEEE, vol. 94, no. 1, pp. 251–256, Jan. 2006.

[2] Digital terrestrial television - Video coding, audio coding and multiplexing - Part 1: Video coding, Std. ABNT NBR 15602-1, 12 2007.

[3] Information technology - Coding of audio-visual objects - Part 10: Advanced Video Coding, Std. ISO/IEC 14496-10, 10 2004.

[4] Digital terrestrial television - Video coding, audio coding and multiplexing - Part 2: Audio coding, Std. ABNT NBR 15602-2, 12 2007.

[5] Coding of audio-visual objects - Part 3: Audio, International Organization for Standardization (ISO) Std. ISO/IEC 14496-3, 2007.

[6] Digital terrestrial television - Data coding and transmission specification for digital broadcasting Part 5: Ginga-NCL for portable receivers - XML application language for application coding, Std. ABNT NBR 15606-5, 04 2009.

[7] G. Bedicks Jr. et al., “Outlines of the brazilian digital terrestrial television broadcasting system,” in 57th annual IEEE Broadcasting Symposium, Washington, DC, Oct.1st Nov. 2007.

[8] G. Bedicks Jr. et al., “Performance evaluation of brazilian DTV mobile reception,” in Broadband Multimedia Systems and Broadcasting (BMSB). Bilbao, Guatemala: IEEE International Symposium, May 2009.

[9] Transmission System for Digital Terrestrial Television Braodcasting, Association of Radio Industries and Businesses (ARIB) Std. ARIB STD B31, Rev. Version 1.6-E2, 2005.

[10] Y. Wu et al., “Comparison of terrestrial DTV transmission systems: The ATSC 8-VSB, the DVB-T COFDM, and the ISDB-T BST-OFDM,” vol. 46, no. 2, pp. 101–113, 2000.

[11] C. Akamine et al., “Re-multiplexing ISDB-T BTS into DVB TS for SFN,” vol. 55, no. 4, pp. 802–809, 2009.

[12] M. Uehara, “Application of MPEG-2 systems to terrestrial ISDB (ISDB-T),” Proc.of the IEEE, vol. 94, no. 1, pp. 261–268, Jan. 2006.

[13] G. Bedicks Jr. et al., “Field measurements for ISDB-TB in the VHF band,” in Broadband Multimedia Systems and Broadcasting (BMSB), Nuremberg, Jun. 2011.

[14] A. Peled and A. Ruiz, “Frequency domain data transmission using reduced computational complexity algorithms,” p. 4, 1980.

[15] Digital terrestrial television - Transmission system, Std. ABNT NBR 15601, 12 2007.

[16] Digital terrestrial television - Video coding, audio coding and multiplexing - Part 3: Signal multiplexing systems, Std. ABNT NBR 15602-3, 12 2007.

[17] Digital terrestrial television - Receivers, Std. ABNT NBR 15604, 122007.

[18] Planning criteria, including protection ratios, for digital terrestrial television services in the (VHF/UHF) bands, Radiocommuncation Sector of ITU Std. Recommendation ITU-R BT.1368-9, Rev. 5.2, 12 2011.

[19] Error-correction, data framing, modulation and emission methods for digital terrestrial television broadcasting, Radiocommuncation Sector of ITU Std. Recommendation ITU-R BT.1306-6, 12 2011.

[20] Methodology for the subjective assessment of the quality of television pictures, Radiocommuncation Sector of ITU Std. Recommendation ITU-R BT.500-11, 12 2011.

[21] Unified NorDig Test Specifications, NorDig.

[22] G. Bedicks Jr. et al., “Digital signal disturbed by impulsive noise,” vol. 51, pp. 322–328, Nov. 2005.

[23] C. -C. Lin, C. -M. Chen, J. -H. Tarng, H. -M. Hang and H.-C. Yu, “Analysis of ATSC field test results in taiwan,” vol. 48, no. 1, pp. 38–43, 2002.

[24] P. Angueira et al., “DTV (COFDM) SFN signal variation field tests in urban environments for portable outdoor reception,” vol. 49, no. 1, pp.81–86, 2003.

[25] P. Angueira et al., “DTV reception quality field tests for portable outdoor reception in a single frequency network,” vol. 50, no. 1, pp. 42–48, 2004

22 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 23: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 23

Análise Qualitativa de uma Rede SFN Operando com troca de Canal Virtual

entre as Estações RetransmissorasRamon Maia Borges

[email protected]

Page 24: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

24 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Abstract— This works presents a investigation about the use of

different virtual channels in a single frequency network. Practical results demonstrate the possibility of using this

configuration and the penalties involved. Index Terms: digital TV; SFN; virtual channel; MER; area of

overlap. O trabalho tem por finalidade investigar o comportamento de

uma rede SFN (Single Frequency Network) dentro do padrão ISDB-T (Integrated Services Digital Broadcasting – Terrestrial), na condição em que as estações retransmissoras utilizem canais virtuais distintos.

Resultados práticos demonstram a possibilidade de operação da rede na situação descrita, assim como as penalidades decorridas desta configuração.

Palavras-chaves: sistema de TV Digital; SFN; canal virtual; MER, região de cobertura.

I. INTRODUÇÃO O serviço de broadcasting para televisão digital está em

plena fase de implantação no Brasil. Segundo a Anatel (Agencia Nacional de Telecomunicações), em 2011 eram 480 municípios cobertos por pelo menos 1 canal digital, número este deslocado para 508 em 2013 e com grande perspectiva de crescimento, dada ao prazo de switch off da TV analógica estabelecido pelo Governo Federal [1], e aos notáveis eventos esportivos que acontecerão em breve no País. Ainda segundo a Agência, a TV móvel estará nas mãos de 100 milhões de brasileiros até a copa de 2014.

A tecnologia de HDTV (High Definition Television) oferece ótima qualidade de imagem e envolve novidades e desafios para o planejamento de cobertura, já que as áreas de abrangência dos sinais digitalizados apresentam limites abruptos e bem definidos. Isto porque para garantir o serviço de alta definição, é necessário que uma relação sinal/ruído mínima seja mantida. Caso contrário, o receptor não interpreta nenhuma informação [2].

Neste cenário, o uso de estações retransmissoras operando em SFN torna-se bastante atraente para ampliar a área de cobertura e reforçar sinais [3]. Tais redes permitem que diferentes estações transmitam simultaneamente a mesma Artigo Científico revisado em 10/10/2013. Ramon Maia Borges pertence ao laboratório Wireless and Optical Convergent Access (WOCA) do Inatel. Av. João de Camargo, 510 – Santa Rita do Sapucaí – Minas Gerais – Brasil.

programação operando em uma única frequência, com o intuito de atender uma região definida de serviço. Dentre as vantagens estão o melhor aproveitamento do espectro radioelétrico e a diversidade espacial alcançada.

Por outro lado, estas redes envolvem um elevado grau de complexidade. Para que não ocorram interferências, é necessário que todos os elementos da rede estejam em perfeito sincronismo e que o conteúdo transmitido seja idêntico bit a bit [4].

O objeto de estudo deste trabalho é a avaliação do resultado obtido quando o canal virtual for alterado em um dos pontos de transmissão de uma rede SFN.

A seção 2 descreve o ensaio realizado em laboratório com transmissores operando em rede de frequência única, com e sem alteração de canal virtual. Na seção 3 os resultados obtidos são expostos e comentados. O trabalho é finalizado com as conclusões relevantes e trabalhos futuros.

II. ENSAIO COM TRANSMISSORES OPERANDO EM SFN A estruturação básica de uma rede SFN exige que cada

estação transmissora receba o mesmo sinal e que todos os elementos da rede estejam referenciados por uma única base de tempo [4]. O sinal resultante é uma combinação dos sinais provenientes de cada transmissor, conforme mostra a Figura 1.

A área apontada como crítica se refere à região onde os níveis de recepção são iguais ou muito próximos.

Fig. 1: Área coberta pelas estações A e B.

. Fundamentado neste conceito, foi construída em laboratório

a rede SFN descrita pela Figura 2, onde todos os elementos envolvidos foram sincronizados via GPS (Global Positioning System). O sinal a ser transmitido foi recebido pelo satélite e remultiplexado. Os dois transmissores foram configurados de maneira similar, operando ambos com 30dBm, no canal 20. O sinal proveniente de cada um deles foi somado, sendo o resultado entregue a um televisor HD e a um instrumento de medição. Desta forma, simula-se o pior caso, ou seja, a

Análise Qualitativa de uma Rede SFN Operando com troca de Canal Virtual entre as

Estações Retransmissoras Ramon Maia Borges

Page 25: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 25

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

condição em que os níveis de recepção são bastante próximos. Foi utilizada a modulação QPSK (Quaternary Phase Shift

Keyng) para o one seg, e 64QAM (Quadrature Amplitude Modulation) para o serviço de HD.

Fig. 2: Rede SFN considerada para o ensaio.

Foram avaliadas duas situações:

A. Rede SFN sem troca de canal virtual Configura a situação ideal para o perfeito funcionamento de

uma rede de frequência única. O sinal recebido pelo satélite e remultiplexado (BTS1 –

Broadcast Transport Stream), é entregue ao TX1 (transmissor) e ao REMUX2 (remultiplexador), que faz apenas o bypass da informação, sem alterá-la em nada. Desta forma, o BTS2 é exatamente igual ao BTS1, sendo a informação transmitida por cada estação também igual.

B. Rede SFN com troca de canal virtual em uma das estações retransmissoras.

Em algumas situações, pode ser necessário que regiões vizinhas recebendo a mesma programação possuam canais virtuais diferentes. Entretanto, se considerarmos uma rede em SFN, este modo de operação não atende ao requisito de que, para o bom funcionamento, o BTS de entrada em cada transmissor deve ser o mesmo.

Com o intuito de observar seu resultado, a situação descrita foi simulada.

Em um primeiro momento, o sinal recebido pelo satélite continua sendo remultiplexado, de forma que o canal virtual “46” foi estabelecido. O BTS1 foi então entregue ao TX1.

Este mesmo sinal é também entregue ao REMUX2, que não mais fará apenas o bypass da informação. Nesta etapa, o BTS de entrada é novamente remultiplexado de modo que o canal virtual, informação contida na tabela NIT (Network Information Table), foi alterado para “65”, sendo os demais parâmetros isentos de modificações.

Tal procedimento representa uma alteração de bit na informação entregue ao TX2. Desta forma, passa a existir uma diferença entre os sinais de entrada das estações transmissoras envolvidas, já que o BTS2 não continuará sendo semelhante, bit a bit, ao BTS1.

O comportamento da rede operando nesta condição evidentemente “não ideal” está descrito na próxima seção.

III. RESULTADOS OBTIDOS O sinal entregue pela rede SFN foi analisado por um TV

Analyzer e por um aparelho televisor de alta resolução.

A. Estações operando com o mesmo canal virtual. Com esta configuração pôde ser constatado que a rede SFN

funciona perfeitamente. Foi alcançada uma MER (Modulation Error Ratio)

superior a 39dB para ambos os layers, conforme evidenciado pela Figura 3. A taxa de erro de bit, medida antes do algoritmo de Viterbi [5][6][7], foi de 0,0x10-8 para o layer A, e de 3,9x10-5 para o layer B. Tais valores são considerados pequenos e perfeitamente compensados pelos algoritmos de correção de erros. A qualidade da imagem aberta pelo televisor, em HD, foi impecável, sendo este resultado já esperado. Afinal, os requisitos necessários para o funcionamento de uma rede de frequência única foram atendidos.

Vale lembrar que tais requisitos abrangem também, entre outros, aos parâmetros de intervalo de guarda e atraso na transmissão, não sendo estes o objeto de estudo deste trabalho.

B. Estações operando com canais virtuais distintos. Nesta situação a área coberta pelo TX1 terá a programação

sintonizada no canal 46. Já a área coberta pelo TX2, terá sua programação sintonizada no canal 65.

A Figura 3 expõe o resultado obtido considerando a região crítica de operação.

Figura 3: MER e constelação dos layers A e B, respectivamente.

Pode-se observar que, na situação em que o canal virtual é

alterado em uma das estações, passam a ser visualizados na constelação do layer A, uma série de pontos que representam a aproximação indesejada dos símbolos em relação à fronteira de decisão e, consequentemente, uma maior probabilidade de erro de bit. Na constelação do layer B, tal efeito não foi constatado.

É também observado, para o layer A, uma drástica redução da MER em (b), quando comparada com a MER em (a).

A taxa de erro de bit, neste mesmo layer, também medida antes do algoritmo de Viterbi, passou para 9,3x10-5.

A televisão sintonizou o canal virtual 46, ou seja, o primeiro canal encontrado durante o processo de varredura. Não foi

Page 26: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

26 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

percebido nenhum tipo de degradação na qualidade da imagem em alta definição.

Provocando diferenças entre os níveis de recepção, situação a qual simula o afastamento do receptor em relação à área crítica, verificou-se o aumento da MER do sistema, conforme mostra a Figura 4. Nestas situações, o canal sintonizado pela TV foi o proveniente da estação com sinal mais forte.

Figura 4: Gráfico MER x diferença entre os níveis de recepção.

Fica evidente que o efeito danoso para a qualidade do sinal

recebido, provocado pela alteração de bit no BTS da rede, está presente somente no layer A e, consequentemente, no serviço de TV móvel. Isto pode ser explicado pelo fato de que a informação de canal virtual está contida na tabela NIT, sendo esta transportada pelo layer em questão.

IV. CONCLUSÕES Neste estudo foram abordados aspectos referentes a redes

operando em SFN, onde parâmetros como MER e qualidade de imagem foram avaliados.

Com a análise dos resultados obtidos, é possível constatar que a alteração de canal virtual, em uma das estações dentro de qualquer rede SFN, penaliza a recepção do one seg. Por outro lado, o serviço de HDTV não é afetado em momento algum, mantendo os padrões de qualidade de imagem desejados, mesmo na região crítica de operação.

Pôde também ser observado que a MER correspondente ao layer A aumenta à medida que o ponto de recepção se distancia da área crítica. Isto evidencia que a possibilidade de operação fora de tal área é maior.

Desta maneira, esta configuração de rede pode ser implementada desde que, a possibilidade de perda do serviço de TV móvel, na região de intersecção, seja admitida.

Se a área crítica cair sobre uma mata, por exemplo, os efeitos danosos podem ser despercebidos. Há ainda, em alguns casos, a possibilidade de se deslocar a região de interferência, de modo que esta coincida com pontos onde a demanda pelo serviço móvel de televisão não é forte. Nestes casos, portanto, pode-se concluir que a configuração estudada pode ser usada sem grandes efeitos danosos.

Como trabalhos futuros, pretende-se avaliar em campo a qualidade do serviço de TV Móvel na condição em que o canal virtual é alterado em uma das estações, dentro de uma rede SFN. Pretende-se também estudar o processo de deslocamento da região de interseção.

REFERÊNCIAS [1] Ministério das Comunicações. “Elaboração do plano de desligamento da

TV Analógica entra na fase final”, Brasília, 2013. [2] R.I.Faller. “Planejamendo de cobertura – as opções existentes para a TV

digital terrestre”. Kathrein Mobilcom Brasil. [3] S.R.M. Carvalho; Y. Iano; R. Arthur. “Planejamento da Expansão do

Serviço de Retransmissão de TV Digital no Brasil usando redes SFN”. Revista Científica Periódica – Telecomunicações, VOL. 08, NO. 02, Dezembro de 2005.

[4] Progira Radio Comunication. “Transition from Analog to Digital (Digital Terrestrial Television: Trends, Implementation & Opportunities)”. Tunisia – Tunis, 12 – 15 March 2012.

[5] F.J. Macwilliams. “The Theory of error-correcting codes”. New York: North-Holland, 1998, 762p.

[6] Drury, Fordon, “Coding and Modulation for Digital Television”. Boston: Kluwer Academic Publishers, 2000, 249p.

[7] Lou, H.L. “Implementing the Viterbi Algorithm”, IEEE Signal Processing Magazine, 1995, pp. 42-52.

Ramon Maia Borges nasceu em Campanha, MG, em 04 de outubro de 1986. Possui os títulos: Técnico em Eletrônica (ETE “FMC”, 2004) e Engenheiro Eletricista (INATEL, 2012). Atuou na empresa Screen Service do Brasil, efetuando testes e ensaios com equipamentos de broadcast para televisão. Desde 2013 é pesquisador do laboratório Wireless and Optical Convergent Access (WOCA) no Inatel, onde cursa Mestrado em Telecomunicações. Tem interesse nas áreas de sistemas de rádio, transmissão e retransmissão de TV Digital, RoF e comunicações ópticas.

Page 27: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 27

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

A Televisão Corporativa como Canal Midiático

José Riccardo [email protected]

Page 28: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

28 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

1

A Televisão Corporativa como Canal Midiático

José Riccardo Bonavita

Escola de Comunicação da UFRJ, Rio de Janeiro, Brasil, [email protected]

Resumo: Este artigo tem por finalidade analisar a forma como empresas do mundo inteiro usam a linguagem universal da mídia televisiva e, através de transmissões de broadcasting (transmissões de televisão via satélite ou intranet), para filiais e pontos de reunião de seus funcionários e colaboradores espalhados em uma determinada região de um país, ou mesmo em vários países, simultaneamente,copiam os modelos criados pela livre manifestação do canal midiático televisivo como forma de tentar integrar seus funcionários e repassar o discurso e a mentalidade corporativa e seus valores.

Palavras chave: Televisão, corporativa,comunicação, mídia, audiovisual.

IntroduçãoA televisão estampa os discursos

de cada época e de cada sociedade com suas imagens, funcionando até hoje desta forma, como uma vitrine discursiva, e que ainda se reflete em seu prestígio, na técnica da confiabilidade em sua informação. O discurso criado para a televisão, que existiu antes dela e se enraizou depois dela, formou seu lugar na sociedade, destacando-a e fazendo com que se tornasse o veículo mais popular. Por conseguinte, a formatação da mensagem empresarial através do meio televisivo corporativo foi a maneira encontrada para concretizar objetivos comunicacionais corporativos e, por conseguinte, obter a apreensão de conteúdos e conceitos de valor corporativo por parte dos colaboradores de uma empresa.

ObjetivoAo analisarmos como se dá a

utilização da linguagem de televisão pela TV de Comunicação Interna, observamos que a apropriação pela ideologia corporativa da face artística do audiovisualremete a características reconhecidas pelo “público” como universais, expressa por seus meios às aspirações autênticas deste público, encontrando aí um modelo de linguagem. Pretendemos traçar um breve painel mostrando que a formatação da

mensagem empresarial nestes moldes, através da transmissão de Televisão Corporativa, é uma das garantias de sucesso desta forma de comunicação.

Discussão: a construção de um modeloDunker e Prado citando Zizek [1]

nos afirma que: “assim, pois, a luta pela hegemonia ideológica e política é sempre a luta pela apropriação dos termos que são espontaneamente vivenciados como apolíticos”. O que isso quer dizer simplesmente? Quer dizer que, inspirados muitas vezes em programas da mídia televisiva tradicional (não corporativos), sua imitação corporativa incorpora métodos e normas da TV tradicional para usá-los a seu serviço, transferindo a formatação de entretenimento para o conteúdo estritamente empresarial, ou comercial. Assim, gerentes se transmutam em apresentadores de auditório, presidentes em líderes motivacionais, diretores de Marketing em atores. O espaço cênico agora é a empresa, suas logomarcas, seus ambientes antes fechados ao público e agora vistos como “set”, sua “missão” lida como texto de um telejornal.

Essa apropriação promove e impulsiona as diretrizes corporativas e valores que as empresas desejam ver absorvidos por seus funcionários, e assim vê-los multiplicados e postos a serviço do crescimento empresarial. O canal midiático televisivo ajuda a massificar e disfarça, através de uma linguagem já digerida pela memória comum, ou seja, a familiaridade com os modelos da televisão aberta, a mensagem corporativa.

Desse modo, a preocupação das empresas tende a ser cada vez maior em relação aos sistemas que possibilitem umacomunicação ágil e eficaz. A tendência é que se produza uma ligação forte entre os colaboradores e a empresa, através da TV Corporativa, criando uma força produtiva, que tende a influenciar a definição das metas e objetivos da organização. SegundoKotler [2]:

“...a cultura organizacional é um conjunto de crenças e valores específicos de uma determinada organização. Essas crenças e valores referem-se aos hábitos, mentalidade, estilo de liderança,

Page 29: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 29

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

2

comportamentos e padrões de decisão adotados pela organização e que criam para ela uma identidade diferenciada” (Kotler, 1994, p 613).

Nesse sentido, a comunicação interna e o fluxo das informações são utilizados para preservar ou impulsionar as metas da empresa. Em geral, as empresas líderes valorizam a comunicação interna nas suas organizações e acreditam que ela estreita os laços de confiança da equipe na gestão e promove o seu comprometimento com o sucesso dos negócios.

Assim, apropriando-se da linguagem, hoje universal, da mídia televisiva, corporações empresariais do mundo inteiro fazem, atualmente, transmissões de broadcasting, isto é, transmissões de televisão via satélite ou intranet, para sedes e pontos de reunião de seus funcionários e colaboradores espalhados em uma determinada região de um país, ou mesmo do planeta. A aglutinação de pessoas em torno da TV, hábito doméstico criado no século passado, passou a ser parte integrante agora da rotina de trabalho em várias empresas e corporações. Na mesma medida, isto traz oreflexo das preocupações do âmbito da sociedade para o âmbito corporativo.Causas sociais como, sustentabilidade, meio-ambiente, grupos étnicos ou de portadores de deficiências, têm representação corporativa equivalentediante da lente da câmera.

O fetiche, aqui reforçado, de usar traços da cultura para consolidar marcas, se torna experiência audiovisual, de vida e de participação. Ver-se refletido na TV Corporativa e, teoricamente, não mais esquecido como um “peão” da máquina, revigora e estimula aqueles que estão à margem, e necessitam participar para não serem esquecidos, descartados. O púlpito eletrônico é a oportunidade que a corporação dá àqueles que estão cumprindo perfeitamente seus papéis. Da mesma forma, aqueles que não se adéquam à engrenagem, isto é, não cumprem metas, planos, sacrifícios corporativos, podem ser repreendidos, ou até ridicularizados, agora em rede!

Historicamente, até o final doséculo XX, os audiovisuais mais utilizados por empresas eram: os chamados Vídeos Institucionais, que promovem e divulgam uma empresa e suas realizações ou produtos; e os Vídeos de Treinamento, para ensinar ou divulgar técnicas e expertises necessárias ao trabalho de seus

funcionários. O advento da televisão corporativa, trazendo o hábito de reunir os funcionários num dia e horário pré-determinados em volta de aparelhos de TV, como já destacamos, modificou a rotina de trabalho em várias empresas. E, hoje em dia, mais do que informar ou treinar, acomunicação via TV deve entreter.

Dentre várias empresas que utilizam a Televisão Corporativa como ferramenta de comunicação interna, gostaríamos de analisar como referência oMagazine Luiza, uma empresa de vendas a varejo, considerada a terceira maior nomercado brasileiro, com um faturamento anual de seis bilhões e meio de reais em 20111. Com perto de vinte mil colaboradores, a prática da comunicação interna no Magazine Luiza é bastante valorizada, tendo inclusive sido premiada pelo instituto The Great Place to Work como a melhor empresa na prática de “falar” com seus funcionários, em 2010.Silva Neto [3] nos relata: “Segundo a The Great Place to Work, consultoria responsável por uma das metodologias existentes no Brasil para a seleção das melhores empresas para se trabalhar, a definição de credibilidade no ambiente empresarial é a relação construída entre a liderança e seus funcionários, onde a comunicação clara e transparente é fundamental.” (Silva Neto, p. 63).

Sendo uma empresa com forte cultura familiar, refletida pelo fato de seus principais acionistas, serem da mesma família, e pelo fato de que só recentemente, em maio de 2011, abriu seu capital ao mercado, através da Bovespa, o Magazine Luiza tem raízes e valores culturais perceptivelmente interioranos. Representada na figura de sua presidente, Luiza Helena Trajano, essa empresa realiza sua comunicação interna com características próprias, em tese permitindo uma comunicação representativa, onde o vendedor de uma loja tem acesso ao e-mail da presidente, e é estimulado por ela, via TV Corporativa, a escrever-lhe relatando qualquer caso que fira a ética promulgada pela empresa em seu manifesto de missão e valores [4]:

A comunicação é um dos pilares que sustentam um dos nossos valores mais importantes: a transparência. O Magazine Luiza tem como regra comunicar todos os passos importantes da empresa com antecedência aos seus colaboradores. E

1 Fonte: http://ri.magazineluiza.com.br/static/ptb/principais-indicadores.asp?idioma=ptb

Page 30: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

30 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

3

quem trabalha na empresa, reconhece isso. E o mercado também reconhece! Em outubro de 2010, fomos eleitos como a “Empresa que Melhor se Comunica com seus Colaboradores - Prática do Falar” entre mais de 750 empresas que participaram da pesquisa realizada pelo Instituto Great Place to Work. Por meio dos nossos veículos de comunicação interna, formados pela Rádio Luiza, pelo Portal Luiza e a TV Luiza, transmitimos as mensagens e os posicionamentos da empresa, de maneira simultânea para todos os colaboradores. Esses canais são feitos com a opinião e contribuição da equipe. A empresa defende e adota práticas que possibilitam que todos os colaboradores tenham voz (Culture Audict – The Great Place to Work Institute –2011).

Verificamos que, no que tange a comunicação corporativa, as empresas utilizam canais internos de comunicação para disseminar informações e, mais importante do que isso, manter o mood, isto é, a motivação de seus funcionários/colaboradores, sintonizado com a expectativa de crescimento e lucro do board de diretores e acionistas. Mesmo assim, existe uma enorme distancia entre o quanto as empresas consideram a comunicação interna estratégica para seus negócios e a forma como essa disciplina é efetivamente trabalhada dentro das corporações. A efetividade da comunicação interna é imprescindível para estas, visto que a economia globalizada e mercados cada vez mais competitivos exigem que as empresas consigam reter seus talentos e também motivá-los a atingirem metas de desempenho.

Hoje, é lugar-comum dizer que oque permite a uma empresa ter sucesso a longo prazo não são suas máquinas ou tecnologia, mas sim as pessoas. São as pessoas que fazem toda a diferença. O público interno de uma empresa, por sua vez, é complexo e, em geral, atualizado quanto ao mundo em que vive. Não é possível passar por cima de seu julgamento das coisas e tentar catequizá-los em uma direção se esta não corresponder às expectativas que esse público tem de si próprio. Para tanto, a função de entreter contida na mídiatelevisão funciona como formato estratégico para passar a mensagemcorporativa. Alguns de seus apresentadores-diretores são vistos comparativamente como “ídolos” televisivos, que merecem admiração e destaque dentro da vida cotidiana da empresa. São recebidos com pedidos de autógrafos em lojas que visitam. E cada

qual também exerce um estilo de comunicação, sendo mais ou menos interpretativos frente às câmeras, usando mais ou menos recursos de oratória, posições e discursos diferentes.

E é preciso também, neste caso, avaliar os rumos, a governança corporativa de uma empresa. Como explica Costa Bueno [5], a governança corporativa é o sistema pelo qual as sociedadescorporativas são dirigidas e monitoradas, e envolve os relacionamentos entre acionistas, cotistas, conselho administrativo, diretorias e outros boardshierárquicos dentro de uma corporação. Hoje, entretanto, essa governança, e, por conseguinte sua comunicação entre os vários níveis hierárquicos é mais abrangente e inclui outros públicos, como os funcionários em todos os níveis, desde o chão de fábrica.

Evidentemente, há interesses nem sempre coincidentes entre os shareholders e os stakeholders, todos eles reconhecidos como legítimos. Os primeiros preocupam-se especialmente com a maximização do retorno de seus investimentos, e os segundos com a repercussão do desempenho e funcionamento da organização em seu trabalho/emprego e na preservação das condições de saúde e do meio ambiente, com a qualidade de seus produtos e serviços, e de seu atendimento, e assim por diante (Boanerges Lopes, 2010)[6].

Dentre os valores da governança corporativa, e aqui pontuamos o caso do Magazine Luiza como representativo, estáo disclosure, a transparência das informações, em particular daquelas que, por sua relevância, podem impactar o negócio, e seus resultados presentes e futuros. O princípio da transparêncialembra que da boa comunicação interna, particularmente quando espontânea, franca e rápida, deve resultar num clima de confiança. Ela deve contemplar os fatores intangíveis da organização que conduzem a criação de valor.

O canal de comunicação via broadcasting do Magazine Luiza foi lançado no dia 06 de dezembro de 2006: a TV Luiza, que é atualmente, segundo pesquisa do Instituto IPSOS, a maior TV corporativa do segmento de varejo do Brasil, em termos de público absoluto de sua audiência, hoje em torno de 21 mil funcionários. A opção do Magazine Luiza foi por fazer a transmissão ao vivo, via satélite, de forma a garantir a interatividade, participação e agilidade, características do formato. “Com a TV

Page 31: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 31

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

4

queremos fortalecer ainda mais nossos valores e estar sempre presentes e dialogando com o campo. Queremos crescer sem perder nossa essência” ressaltou a presidente Luiza Helena, em sua fala de abertura do primeiro programa,nos idos de 2006, que foi transmitido inicialmente para 310 pontos no território nacional.

O processo de implantação da TV foi coordenado pela gerente de Relações Institucionais, Ivone Santana, e consistiu em fases distintas: recebimento e análise das propostas apresentadas por várias empresas; estudo e definição da tecnologia a ser adotada para a transmissão; escolha e contratação da empresa parceira; distribuição e instalação das antenas de recepção em cada unidade; definição do formato da programação; e finalmente, a formatação de um cronograma de trabalho para a produção contínua dos programas semanais, envolvendo roteiro, captação de imagens, edição e transmissão.

A empresa escolhida para ser a parceira neste projeto foi a Subway, uma produtora de São Paulo que já prestava serviços para o Magazine Luiza na realização de eventos e vídeos. Segundo Arnold Eugênio Correia, diretor da Subway, a TV Luiza mobiliza uma equipe de 26 profissionais no dia da transmissão do programa sendo que, deste total, 6pessoas ficam dedicadas para a TV Luiza em tempo integral. Começando em Franca, cidade originária do Magazine Luiza, com um pequeno estúdio de 200 metros quadrados, e desde setembro de 2010 em São Paulo, num estúdio moderno dentro do próprio Escritório de Negócios da empresa,a TV Luiza, atualmente, realiza um programa semanal de trinta minutos, aproximadamente, toda quinta-feira às 8horas, transmitido ao vivo para suas lojas, centros de distribuição e escritórios em 16 estados brasileiros, via broadcasting por satélite.

No processo de produção do programa, a gestão do programa, exercida por um executivo da empresa, tem o poder de filtrar as diversas demandas das várias áreas da empresa (Marketing, Operações de Loja, Compras, Logística, etc...) para a limitação do conteúdo do roteiro do programa. Obviamente, cada área de interesse julga seu conteúdo como pertinente e de urgente necessidade de divulgação. Não obstante essa conduta, as diretrizes corporativas ordenam e direcionam as prioridades: nem tudo que

necessita ser divulgado, necessita ser divulgado através do programa televisivo. Conteúdos primeiramente demandados à produção da TV Luiza são redirecionados a outros meios de divulgação e comunicação da empresa, como a Rádio Luiza ou o Portal da Empresa na Internet, também chamado de Portal Luiza.

Gerenciar o excesso de informação que bombardeia o funcionário diariamenteé uma necessidade fundamental no processo de comunicação. As mensagens e conteúdos acabam concorrendo pela atenção do funcionário, que acaba selecionando apenas algumas informações que o interessam naquele momento, devido à sobrecarga de informação. Com isso, corre-se o risco de informações relevantes se perderem. “É preciso que o comunicador faça uma gestão inteligente das informações, priorizando as de maior relevância e escolhendo os canais adequados para divulgá-las” (Silva Neto, p. 60).

A estrutura do programa corporativo da TV Luiza conta com equipe similar à de um programa de televisão comercial: diretor, roteirista, produtores, editores, cinegrafistas, entre outros. O uso de cenografia que, via de regra, remete às campanhas que estão sendo veiculadas pela empresa, é parte funcional da produção de qualquer programa de TV convencional. Equipamentos de captação e edição são os mais atuais possíveis no mercado audiovisual. E os cuidados com maquiagem e figurino são os mesmos como seriam empregados caso não fossem os apresentadores diretores, gerentes e colaboradores, e sim atores profissionais.

A elaboração de cada programa conta com a confecção de quadros variados, VTs pré-gravados com assuntos pertinentes aos temas abordados em cada área. A similaridade com a TV convencional é tal que vários gêneros e formatos são utilizados como, por exemplo,o programa de auditório com apresentador ao vivo, muito usado na TV Luiza, com participação de público e convidados, e contando sempre com um diretor ou uma liderança visível da empresa para comandar o programa.

Outro formato bastante utilizado é o telejornal. O telejornalismo é bastante valorizado pois as emissoras investem grande parte de seus recursos no jornalismo com intuito de dar credibilidade ao veículo, segundo Aronchi [7]. (Aronchi, p 153).

Page 32: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

32 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

5

Dois quadros dentro do programa de variedades que é a “TV Luiza”, se encaixam, com alguma pertinência, na classificação de telejornal ou matéria de telejornal: “Repórter por um Dia”, e “Onde Estão os Líderes” são quadros que oapresentador chama para citar uma “reportagem” feita especialmente para documentar ou mostrar alguma área ou procedimento na empresa, ou então algum acontecimento externo onde o nome da empresa se vê refletido na mídia tradicional. Ambos são mostrados através de VTs (vídeo-tapes, ou seja, matérias pré-gravadas). Após o encerramento do VT, o apresentador, ao vivo, comenta sobre a relevância da matéria apresentada, bem ao molde dos telejornais.

Quanto ao fato de que esses quadros são produzidos com a orientação corporativa, como visto anteriormente, e produzidos para mostrar o lado positivo do dia-a-dia da empresa, vale colocar a pertinente observação de Beatriz Becker [8](Becker, p. 47):

É o leitor que torna o texto e a obra vivos, porque sem audiência não há espetáculo. Não importa aqui, portanto, julgar se os discursos jornalísticos são bons ou ruins, verdadeiros ou falsos, até porque esses conceitos também são relativos.

Notamos também que, assim como a televisão, historicamente, serviu a um processo de identidade nacional, nos anos 1960-70, a televisão corporativa doMagazine Luiza é usada, por exemplo no trabalho de integração de funcionários de uma rede adquirida em 2010, a rede de lojas Maia, no Nordeste, repassando a cultura do Magazine Luiza e dando voz e presença aos funcionários da rede Maia, em processo de absorção pelo Magazine Luiza.

O encerramento da cada programa no estúdio tem um tom especificamente emocional, com o diretor ou liderança que apresenta o programa conclamando os funcionários a aplicar com afinco o Atendimento 10 Estrelas (cartilha de regras de atendimento da corporação). Quando Douglas Matricardi, diretor de Operações de Loja, que está em constante contato pessoal com gerentes e vendedores, apresenta o programa, ele chama para si atarefa de puxar a emoção para encerrar o tema e o programa. Seu discurso é o discurso de líder, e líder reconhecido. Para isso ele usa recursos figurativos em seu discurso, previamente debatidos à exaustão na confecção do roteiro do programa, e a câmera reforça no

enquadramento essa perspectiva, para em seguida o programa encerrar-se num VT ainda emocional, com “gritos de guerra” dos funcionários do escritório, em apoio aos das lojas.

Por fim, a repercussão doprograma da TV Luiza é sempre imediata, com elogios e críticas dos “telespectadores” de lojas desde São Paulo até os confins do Brasil, chegando por telefone ou e-mail, alcançando dos diretores-apresentadores até a própria presidente da empresa, Luiza Helena Trajano, que de 3 a 4 vezes ao ano apresenta ela própria o programa.

ConclusãoConcluímos então que as

corporações, através da televisão corporativa, se propõem a usar esse poder e essa penetração, a familiaridade da mídia televisiva com o público em geral (sendo os funcionários de uma corporação parte desse público em geral a quem os mass media procuram atingir), para se assegurar da transmissão da mensagem corporativa, de maneira objetiva, através de veículo tão forte e onipresente, mesmo sem podercontrolar ou prever seu resultado.

Como mostramos, no caso da TV Luiza, a repercussão do programa é um bom exemplo da importância que a Televisão Corporativa assumiu na comunicação como um todo, sua apropriação dos recursos técnicos e artísticos da televisão aberta, convencional, e a utilização destes para traçar seu próprio caminho e servir ao processo corporativo, que lhe é base e fundamento, no intuito de reforçar seus valores e visão.

Referências

[1] DUNKER, C.I.L. & PRADO, J.L.A.. Žižek Crítico: política e psicanálise na era do multiculturalismo. São Paulo: Hacker, 2005.

[2] KOTLER, Philip. Administração de Marketing: analise, planejamento, implementação e controle. São Paulo: Atlas, 1994.

[3] NETO, Belmiro Ribeiro da Silva. Comunicação corporativa e reputação: construção e defesa da imagem favorável. Rio de Janeiro: Editora Saraiva, 2010.

[4] CULTURE AUDICT – The Great Place to Work Institute – 2011. Relatório do

Page 33: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 33

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

6

Magazine Luiza enviado ao instituto The Great Place to Work Institute.

[5] BUENO, Wilson da Costa. Comunicação empresarial. Teoria e Pesquisa. São Paulo: Manole. 2003.

[6] LOPES, Boanerges. (Org.)Comunicação empresarial. Transformações e tendências. Rio de Janeiro: MAUAD Editora, 2010.

[7] ARONCHI DE SOUZA, José Carlos. Gêneros e Formatos na Televisão Brasileira. São Paulo. Summus Editorial, 2004.

[8] BECKER, Beatriz. A linguagem do telejornal: Um estudo da cobertura dos 500 anos do Descobrimento do Brasil. Rio de Janeiro: E-papers Serviços Editoriais, 2005.

Page 34: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

O aplicativo de check-in de TV como ferramenta de engajamento na era transmídia

Bruna [email protected],

João Paulo [email protected]

34 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 35: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 35

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

O APLICATIVO DE CHECK-IN DE TV COMO FERRAMENTA DE ENGAJAMENTO NA ERA TRANSMÍDIA

Bruna Uehara e João Paulo Polo

FAAP – Fundação Armando Álvares Penteado, São Paulo, Brasil

[email protected], [email protected]

Resumo: Este artigo se propõe a discutir de

que maneira um aplicativo (também chamado

de app) de check-in de TV pode colaborar

com a fidelização e engajamento de

telespectadores, tendo em vista o fenômeno

atual da segunda tela. Refletir sobre como as

empresas de comunicação podem utilizar

esse comportamento do público e o panorama

transmidiático com o intuito de alavancar a

audiência da emissora e atrair anunciantes.

Palavras-chave: segunda tela, check-in,

engajamento, aplicativo (app), social TV

INTRODUÇÃO

No Brasil, já é uma realidade o uso da

segunda tela (expressão utilizada para designar a

utilização de smartphones, tablets e computadores

ao mesmo tempo em que assistimos TV). O número

de telespectadores com acesso a dispositivos

móveis e à internet aumenta a cada dia. Números

da consultoria Ibope Nielsen revelam que um em

cada seis brasileiros assiste à TV e navega pela

internet ao mesmo tempo. Os dados apontam ainda

que 80% dos consumidores simultâneos de duas

telas no país trocam de canal de TV com base nas

informações que recebem pela internet.

O IBOPE Media também estudou o uso das

redes sociais pelos brasileiros1. E concluiu que

grande parte do tempo gasto na internet é para

navegar em páginas como Facebook, Twitter, blogs,

microblog e fóruns de discussão. Em janeiro de

2013, mais de 46 milhões de usuários passaram por

esses sites, o equivalente a 86% dos internautas

ativos da internet no período analisado. Em

comparação com o mesmo mês de 2012, quando

havia 40,6 milhões de usuários de redes sociais no

país, o crescimento foi de 15%. É a concretização

do que se chama de Social TV.

Os produtores de TV, dessa forma,

necessitam pensar em formatos que atendam a

esse novo comportamento do público, que assiste à

TV enquanto navega pela internet em busca de

diferentes conteúdos.

Nesse sentido, as ferramentas online das

empresas de comunicação não deveriam se

restringir mais a sites que apenas reproduzem os

vídeos e programas da TV. É necessário usar a rede

sem se esquecer da característica principal dela,

que é possibilitar ao internauta um comportamento

ativo. Ao navegar pela página dos programas, ele

1 Disponível em http://www.ibope.com.br/pt-br/noticias/paginas/numero-de-usuarios-de-redes-sociais-ultrapassa-46-milhoes-de-brasileiros.aspx. Acesso em 10/06/2013.

Page 36: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

não apenas quer ver, ele quer opinar, criticar e,

acima de tudo, contar para os outros o que pensa.

A ferramenta de check-in da programação

da TV pode ser a porta de entrada para se criar um

ambiente virtual de engajamento do público, no qual

o próprio telespectador divulga aquilo que assiste.

Esse comportamento de teclar sobre determinado

programa que está no ar já ocorre de forma

espontânea nas redes sociais de maior apelo no

país. A qualquer hora do dia, ao acessar o

Facebook ou o Twitter, é possível identificar

comentários sobre a programação televisiva daquele

momento. As mensagens expressam elogios,

críticas ou o simples fato de estar plugado num

determinado canal.

Então, implantar um sistema de check-in

próprio para que os telespectadores-internautas

compartilhem o que estão vendo na TV é apenas

formatar uma ferramenta específica e com ela poder

desenvolver outras estratégias de fidelização do

público e de convergência de conteúdo.

Esse nicho de mercado já vem sendo

bastante explorado nos Estados Unidos desde

2009. Muitas redes sociais surgiram com essa

função específica para o telespectador compartilhar

seus gostos sobre a programação de TV. O GetGlue

e o IntoNow são dois exemplos de viabilidade dessa

ferramenta. No Brasil, a Rede Globo, principal

emissora do país, fez duas experiências este ano,

sobre as quais este artigo tratará adiante.

UM TELESPECTADOR CONECTADO

Muito antes do advento da internet e das

redes sociais, o ser humano estabelece relações

sociais como base para a própria existência. Elas

sempre foram necessárias para a busca de

alimentos, criação de comunidades, troca de

experiências e sentimentos e perpetuação da

espécie.

Diferentes das relações estabelecidas

antigamente, na era digital, as redes off-line

necessitavam da proximidade física. Com a Internet,

por exemplo, essa barreira se desintegrou. E muito

além disso: ela modificou o papel daquele que, tão

somente, era visto como um receptor passivo de

conteúdos previamente formatados.

Com esta migração das redes sociais off-line para as redes sociais on-line, além da facilidade de criar relacionamentos entre pessoas de interesses comuns, a forma de lidar com o conteúdo encontrado transformou o consumidor em um produtor de conteúdo. Hoje, o consumidor não apenas compartilha suas experiências, como também opina sobre qualquer assunto, recomendando ou condenando o conteúdo para os membros de seus grupos de convívio em suas redes sociais, sejam elas informações de momentos, lugares vivenciados, cultura, política, preferências consumistas e demais assuntos. Com isso, os membros receptores podem compartilhar considerações a respeito destes conteúdos para outros grupos, criando um ciclo constante e interminável de engajamento verdadeiro e, muitas vezes, espontâneo. (ARNAUT, 2011)

Esse panorama atual, no qual está inserida

a mídia televisiva, influencia e altera, portanto, o

comportamento também do telespectador. Ele

deixou de apenas sentar-se na frente do aparelho

para também se relacionar bilateralmente com ele.

“O receptor deixa de ser apenas um mero indivíduo

que recebe mensagens, mas um sujeito do processo

de comunicação que interpreta o conteúdo da

mensagem conforme os valores sociais que

defende” (ARNAUT, 2011). E essa matéria-prima

remodelada é disseminada para qualquer tipo de

mídia pelos diversos dispositivos existentes. Tablets,

smartphones, computadores já são realidade no dia-

36 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 37: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 37

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

a-dia das famílias brasileiras e convivem

simultaneamente com os aparelhos de TV.

JENKINS (2009), um dos mais respeitados

estudiosos de Comunicação dos EUA, descreve o

perfil desse consumidor antes e depois da criação

dessas novas tecnologias. O consumidor antigo era

passivo, previsível, isolado, silencioso e invisível.

Em contraponto, o consumidor atual é ativo, pois se

apropria da informação e também produz novos

conteúdos. Ao contrário daquele que permanecia fiel

a um canal ou programação, o novo telespectador é

migratório e com baixo grau de lealdade. Está

conectado socialmente e busca suas áreas de

interesse em outras mídias. Diferente do pré-digital,

o telespectador hoje é barulhento, público e atuante.

Não fica mais escondido na sombra do controle

remoto.

Para SHIRKY (2011), principalmente o

público jovem, que tem maior acesso à mídia

interativa, tende a se afastar da mídia que não dá

espaço para a participação, feita para o puro

consumo.

Mesmo quando assistem a vídeos on-line, aparentemente uma mera variação da TV, eles têm oportunidades de comentar o material, compartilhá-lo com os amigos, rotulá-lo, avaliá-lo ou classificá-lo e, é claro, discuti-lo com outros espectadores por todo o mundo. (SHIRKY, 2011)

SEGUNDA TELA: CONCORRÊNCIA OU OPORTUNIDADE PARA A TV?

O hábito de ver televisão e ao mesmo tempo

teclar no chat, postar mensagens nas redes sociais

e buscar informações extras sobre aquele conteúdo

que acaba de ser exibido pela TV está marcando

uma nova mudança não só no modo como os

telespectadores consomem conteúdo. É um

comportamento que passa a ser estudado, de

maneira relevante, pelos meios de comunicação.

O trampolim que impulsionou a ideia da aplicação da segunda tela como uma companheira da TV é baseado num simples princípio: somos naturalmente seres curiosos e compelidos a alimentar essa curiosidade. Quando estamos conectados a uma segunda tela enquanto vemos TV, temos acesso instantâneo para procurar uma quantidade infinita de informações sobre o programa a que estamos assistindo e assim ajudamos a satisfazer nossa natural curiosidade. (PROULX e SHEPATIN, 2012)2

Tablet, laptop ou smartphone. Os

telespectadores usam, cada vez mais, esses três

dispositivos enquanto assistem à televisão. E

quando eles interagem com os amigos

simultaneamente à apresentação de um programa

na TV, fazendo comentários a respeito daquela

atração em tempo real, surge o que está se

chamando de Social TV (CESAR E GREETZ, 2011).

De acordo com dados de uma pesquisa

realizada pela Consultoria Nielsen, nos Estados

Unidos, 86% dos espectadores de TV usam também

seu tablet. Na Europa, esse índice é de 70%. No

caso do smartphone, 68% das pessoas usam o

aparelho ao mesmo tempo em que vêem (ou

ouvem) a TV.

No Brasil, a tendência se repete. Com o

crescimento econômico, a população pode ter

acesso às novas tecnologias. Além disso, surgem

no mercado mais opções de marcas e preços mais

acessíveis. Neste cenário, o país atingiu, em 2011, a

10ª posição no ranking de vendas de tablets,

segundo a Consultoria IDC Brasil. A previsão é que

2 Todos os trechos citados desta obra foram traduzidos pelos autores.

Page 38: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

38 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

até o fim de 2013, sejam vendidos 5,4 milhões de

unidades.

Diversos autores defendem que essa

tendência não é uma ameaça à TV. Pelo contrário:

A mobilidade certamente não é uma inimiga da televisão. Em vez disso, é uma oportunidade para as redes de transmissão, empresas de TV a cabo, fabricantes de equipamentos, desenvolvedores de aplicativos, e anunciantes para incrementar a experiência com a TV conectando uma mídia a outras. (PROULX e SHEPATIN, 2012)

CANNITO (2010) desconstrói o mito de que

a TV desaparecerá na “batalha das mídias”. O autor

argumenta que “todas as mídias permanecem,

interagem e se complementam”.

A televisão deve procurar sua especificidade não para superar ou vencer outras mídias, mas para dividir com elas a responsabilidade de melhorar a comunicação entre os homens e promover uma sociedade com mais diversidade estética e mais liberdade. (CANNITO, 2010)

A saída para a TV, portanto, é usar o

comportamento do público em seu favor e também

entrar no mercado de aplicativos para a segunda tela.

“É nessa direção que aponta a maioria das apostas

sobre como será a TV daqui pra frente: integrada

com o mundo online e com participação em tempo

real dos espectadores, através de outras telas.”

(BECKER, 2013).

É necessário buscar formas de engajar os

consumidores e atrair anunciantes. Com tantas opções

móveis para se informar ou entreter, as pessoas não

estão tão dispostas a assistir aos comerciais dos

intervalos de seus programas favoritos. A não ser que

essas propagandas também ofereçam, de alguma

forma, oportunidade para a participação do público,

conforme trataremos adiante.

O desafio, então, é fazer com que esse

público, que usa a segunda tela, interaja com o seu

programa e não se distraia em outras discussões

enquanto está usando o smartphone ou o tablet.

Conforme Julie DeTraglia, da área de estratégia digital

da rede televisiva americana NBC, “você tem que lutar

pela atenção dos telespectadores e esperar que eles

interajam com o seu conteúdo enquanto assistem à

TV”. (PROULX e SHEPATIN, 2012)

O aplicativo de check-in é uma ferramenta

que se encaixa neste modelo de negócio. PROLUX

e SHEPATIN (2012) defendem que “nós fazemos

check-in porque estamos conectados para

compartilhar”.

Uma pesquisa feita pela TV Guide, revista

americana especializada na programação de

televisão, mostra que 77% das pessoas que

compartilham nas redes sociais o que estão

assistindo na TV o fazem para contar aos amigos o

que eles gostam da programação.

FACEBOOK E TWITTER COMO ALIADOS

Mesmo no mercado americano, onde estão

mais evoluídos se comparados com o Brasil,

aplicativos de check-in ainda têm uma base

pequena (mas crescente) de usuários. Mas o que

torna mais amplo o seu apelo é justamente a ligação

que eles têm com grandes redes sociais como

Facebook e Twitter. PROULX e SHEPATIN (2012)

afirmam que o compartilhamento do check-in nessas

redes frequentemente é um catalisador para maior

engajamento do público. E o fato de um check-in

iniciado num aplicativo se mudar para outra

plataforma não necessariamente o faz menos

valioso.

A relação da TV com essas redes sociais

está cada vez mais simbiótica: a TV dita os assuntos

Page 39: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

no Facebook e no Twitter e estes também ajudam a

alavancar a audiência televisiva3. Durante os Jogos

Olímpicos de Londres em 2012, por exemplo, a rede

americana NBC relatou que a mídia social

incentivou as pessoas a acompanhar as Olímpiadas.

Outra pesquisa nos Estados Unidos revela que esse

comportamento de falar sobre a programação

televisiva nas redes sociais está fazendo com que

os telespectadores assistam mais TV ao vivo porque

eles têm medo de perder o efeito surpresa dos

programas favoritos ao ler algum comentário no

Facebook ou Twitter.

No Brasil, estudo da E.Life4, empresa de

monitoração especializada em inteligência de

mercado, mostra que metade dos Trending Topics

(temas mais destacados) do Twitter, no segundo

trimestre de 2013, é de assuntos relacionados

diretamente à programação de TV (novelas,

seriados, atores e jogos de futebol).

Mais uma prova de que essa relação rede

social e TV também é importante por aqui, é o

lançamento recente de uma ferramenta para medir a

audiência no Twitter de programas da TV aberta e

da TV paga. O TTV, um serviço de TV social da start

up Tuilux, usa um algoritmo que identifica mais de

15 mil programas de 95 canais que analisa

mensagens no microblog relacionadas às atrações.

Por mês, a ferramenta capta mais de 6 milhões de

posts para avaliar a opinião dos usuários da rede

sobre a programação televisiva brasileira.

CHECK-IN NA TV: GETGLUE, INTONOW E AS TENTATIVAS BRASILEIRAS

3 Twitter impulsiona audiência. Disponível em: http://www.meioemensagem.com.br/home/midia/noticias/2012/10/25/TV-social--cada-vez-mais-concreta.html#.UTzWajdqO5I . Acesso em 20/02/2013. 4 Pesquisa sobre influência da TV nos TTs do Twitter disponível em: http://www.buzzmonitor.com.br/imprensa/tv-tem-a-maior-influencia-nos-trending--topics-do-twitter-aponta-estudo-da-elife . Acesso em 21/03/2013.

Os serviços de check-in na TV são uma forma de transformar a solitária atividade de ver televisão em casa em uma experiência divertida e competitiva. (PROULX e SHEPATIN, 2012)

Desde 2009, muitas redes sociais voltadas

para o compartilhamento de informações sobre a

programação de TV surgiram nos Estados Unidos.

Nesse período, algumas se reinventaram e se

consolidaram. É o caso do GetGlue – cujo

significado, na tradução livre para português, é

“Fique Grudado”.

O GetGlue se identifica como uma rede

social de entretenimento. Nasceu em 2007 com foco

em livros, cinema e música mas logo mudou o alvo

para a TV.

No começo, a função principal era sugerir

uma programação personalizada ao telespectador.

O usuário baixava o aplicativo e já no cadastro tinha

acesso a uma lista de programas de televisão. Ele

escolhia dez opções de que gostava e a partir daí as

sugestões ao telespectador ficavam mais afinadas

ao seu gosto.

Em 2010, com as versões para Iphone e

Ipad, o GletGlue aproveitou a mobilidade e

introduziu a ideia de check-in na TV: ao acessar a

rede social, o usuário conta o que está assistindo.

Conforme faz o check-in nos programas, ganha

adesivos virtuais relacionados às atrações que viu.

Ao completar vinte, pode pedir a entrega física de

tais adesivos. Trata-se de uma estratégia que

premia e que incentiva a competição entre os

amigos. Quanto mais check-in realiza, mais ganha.

Atualmente, o GetGlue oferece outras

funcionalidades: de acordo com os seus gostos,

monta uma agenda diária para lembrar que em

determinado horário será exibido o programa de sua

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 39

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 40: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

40 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

preferência. O aplicativo também abastece o perfil

do usuário com informações, fotos e vídeos

relacionados aos programas favoritos. Uma forma

de oferecer conteúdo personalizado sobre a

programação e manter a curiosidade e a fidelidade

do usuário.

Em janeiro de 2011, surgiu uma forma ainda

mais fácil de fazer check-in na TV. O IntoNow

lançou a chamada tecnologia de impressões digitais

de áudio. O aplicativo rastreia o que o telespectador

está vendo na TV por meio do som e

automaticamente identifica o programa, dando

informações sobre ele e fazendo uma espécie de

check-in automático do usuário. Três meses depois,

a empresa criou uma nova funcionalidade para

manter a fidelidade do internauta mesmo depois do

check-in: os próprios amigos podiam, a partir dali,

mandar recomendações de programas.

Logo depois, o IntoNow foi comprado pelo

Yahoo. A venda foi considerada, inicialmente,

prematura do ponto de vista empresarial, já que a

companhia estava no auge de crescimento, com 500

mil usuários. Mas o IntoNow queria aproveitar a

chance de agregar o seu nome com uma marca

forte e se beneficiar de parcerias de peso. Foi o que

aconteceu 3 meses depois. O IntoNow foi usado

para atrair fãs de um programa famoso, “Project

Runway”. A estratégia de engajamento era oferecer

conteúdo exclusivo da atração em troca da

fidelidade ao programa, por meio do rastreamento

sonoro que comprovava que o usuário estava vendo

a atração naquele momento. Ou seja, em troca de

uma espécie de check-in. Nesse ponto, é importante

destacar que tanto o GetGlue quanto o IntoNow

estão usando estratégias que vão além do simples

check-in – não basta que o usuário aponte na rede

social que “esteve assistindo” a determinado

programa. É necessário que ele permaneça vendo a

atração e continue a falar sobre ela dentro da rede

social. Com isso, é mantido o interesse no conteúdo

das duas telas. No caso do GetGlue, a companhia

detectou que o internauta apenas fazia o check-in

para pontuar e ganhar o adesivo e depois

simplesmente saía da plataforma.

Esse fato aponta para uma questão que o produtor de conteúdo, seja de TV ou de outras mídias, não pode perder de vista: o que realmente mantém o interesse e a fidelidade do público é o conteúdo e não a tecnologia. Conforme PROULX e SHEPATIN (2012), “o IntoNow percebeu que engajamento do público com conteúdo relevante é o que levaria ao comportamento de uso repetitivo – sem a necessidade de mecanismos de jogos ou de competição”.

As experiências da TV Globo

Em fevereiro de 2013, a TV Globo lançou o

aplicativo “Globeleza”, em referência ao Carnaval,

um dos maiores eventos transmitidos pela empresa

todos os anos. Não era propriamente um aplicativo

de check-in da programação televisiva e sim uma

ferramenta de geolocalização temática, voltada para

os eventos relacionados ao Carnaval. Disponível

nas versões para sistemas iOS e Android, a

ferramenta gratuita permitia ao usuários montar sua

própria programação nos dias de folia em quatro

grandes cidades brasileiras com programação

carnavalesca de destaque: Rio de Janeiro, São

Paulo, Olinda e Recife.

Por meio do app “Globeleza”, o folião se

informava sobre o local, o dia e o horário dos

maiores blocos de Carnaval; o endereço da quadra

das escolas de samba; a ordem dos desfiles; o

esquema especial de transporte público para o

sambódromo; os portões de entrada para cada setor

da Marquês de Sapucaí (no Rio) e do Anhembi (em

São Paulo). A ferramenta permitia ainda calcular as

melhores rotas para chegar a todos esses locais e

Page 41: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 41

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

também localizar hospitais, delegacias e centros de

atendimento da prefeitura.

O aplicativo também podia ser conectado ao

Facebook e assim o usuário compartilhava os locais

favoritos e poderia saber por onde os amigos

passaram. Apesar de não ter relação direta com a

programação de TV, o app “Globeleza” tinha o

propósito de engajar o público no evento que está

fortemente associado à TV Globo. E ao ter conexão

direta com a rede social mais usada no país, a

ferramenta também ajudava, de alguma forma, a

pautar as conversas no Facebook, o que por sua

vez poderia influenciar os internautas na tomada de

decisão de passar a ver a transmissão do Carnaval

pela emissora. Aqui, cabe ressaltar que no Brasil

ainda não há números que comprovem tacitamente

a influência que postagens nas redes sociais podem

ter na audiência de um programa. Mas estudos

preliminares apontam, por exemplo, que a partir de

17 pontos de audiência, cada 5 mil tweets adicionais

sobre um determinado programa geram 1 novo

ponto de audiência no Ibope do canal.5

Poucos meses depois do lançamento do

aplicativo “Globeleza”, a TV Globo criou um app

específico de check-in de programação televisiva.

Batizada de “Com_você”, a ferramenta tinha o

objetivo de aumentar a interatividade e se aproximar

cada vez mais do público, “funcionando como ponto

de encontro de quem curte a programação da Globo

e gosta de falar sobre ela”.6

Entre os recursos disponibilizados aos

telespectadores estão o acompanhamento das

novidades dos programas favoritos; aviso sobre o 5 Cálculo feito pela startup Qual Canal (empresa especializada no monitoramento da repercussão de atrações televisivas na internet) que este ano fez parceria com o Ibope Media. Informações disponíveis na reportagem online “Ibope estuda o impacto da internet na audiência da TV” Disponível em http://www.ibope.com.br/pt-br/noticias/Paginas/50-dos-usuarios-do-Twitter-acessam-a-rede-enquanto -assistem-a-TV.aspx. Acesso em 17/07/2013. 6 Informações da divulgação oficial do aplicativo “com_vc”

começo da atração preferida e informações sobre a

grade de programação; além de ferramentas que

permitem convidar os amigos para ver a atração.

A mais nova tentativa da Rede Globo no

universo dos aplicativos de check-in foi lançada em

setembro de 2013 para a novela teen Malhação. Por

conta do perfil jovem, o programa tem sido pioneiro

em usar recursos transmidiáticos, tema que

trataremos adiante neste artigo.

Por meio do novo app, os fãs da atração

fazem o check-in para mostrar aos amigos que já

estão assistindo à Malhação e com isso ganham

pontos – quem somar mais, torna-se o “Stalker”

(“perseguidor”, em português) de Malhação. Além

disso, os usuários que mais participam de quizzes

ganham conteúdos de gifs, cards e memes com

exclusividade. Uma outra forma de engajar o público

com a novo aplicativo é possibilitar que o internauta

faça comentário durante a exibição do capítulo.

Funciona da seguinte maneira: para ver seu post na

tela da TV, o fã precisa escrever uma mensagem

usando a hashtag (#) do dia (que é divulgada no site

de Malhação, nos perfis oficiais da TV Globo e nas

próprias chamadas da TV). E para instigar a

participação, antes do início da novela, no intervalo

da programação, um dos personagens da atração

chama os fãs para comentar o capítulo do dia.

“Pelo aplicativo, fica mais fácil comentar (a #

entra automaticamente) e acompanhar tudo o que

os outros fãs de ‘Malhação’ estão falando, tudo em

um só lugar”, anunciava o texto de divulgação do

novo aplicativo.

O novo pacote pensado para a novela jovem

da TV Globo revela uma estratégia global no sentido

de engajar o público de segunda tela por meio do

aplicativo de check-in. Fica claro que não basta

lançar um app para que o fã de determinado

programa na TV diga que está assistindo sua

Page 42: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

42 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

atração favorita. É preciso criar conteúdo

relacionado ao aplicativo para oferecer um

diferencial às redes sociais já consolidadas no país,

como Facebook e Twitter – um desafio já que hoje o

compartilhamento de informações sobre a

programação de televisão ainda está concentrada

nas próprias redes sociais.

TRANSMÍDIA E ENGAJAMENTO

A ideia de publicar na tela da TV as

mensagens geradas num aplicativo de check-in com

uma hashtag específica, como fez Malhação, é uma

ação transmídia.

Um projeto transmídia propõe desenvolver,

escrever e produzir conteúdos iniciados em uma

plataforma de mídia e que têm seu desdobramento

estendido a outras plataformas. JENKINS (2009)

define transmídia como: “processo onde os

elementos integrais da ficção são sistematicamente

dispersos através de múltiplos canais de distribuição

para criar uma experiência unificada e coordenada

de entretenimento”.

O produtor transmídia, portanto, baseia-se

numa estratégia em multiplataformas visando o

engajamento do público e a rentabilidade financeira.

Promover o engajamento é transformar o cliente (ou público) em parte da história que está sendo contada, permitindo um real envolvimento das pessoas, direcionando os veículos de comunicação para a criação de um ambiente transmidiático. (ARNAUT,2011).

BERNARDO (2011), cujo livro aborda as

técnicas para desenvolver histórias nas

multiplataformas, defende:

A razão prática para seguir o caminho da transmídia é que o público não está mais confinado a um meio de comunicação. Os espectadores já acessam conteúdo em plataformas alternativas e como produtor, você tem que ir atrás deles. (...) Você precisa envolvê-los onde eles estiverem. (BERNARDO, 2011)

Esse panorama revela que o fluxo das

informações transita de e para diversas localidades.

Sendo o consumidor contemporâneo parte de um

processo vivo de comunicação e com pouco grau de

lealdade a um canal ou programação, promover

ações bem estruturadas de transmídia visa

amenizar as perdas de audiência, aumentar os

lucros e valorar a imagem dos produtos e marca.

Concomitantemente, as empresas de mídia tentam

acelerar a vazão de conteúdos pelos diferentes

canais de distribuição enquanto o telespectador

aprende a explorar diferentes tecnologias para ter

um controle mais completo sobre o fluxo livre de

ideias e conteúdos (JENKINS, 2009).

CONSIDERAÇÕES FINAIS

Pensar TV, atualmente, é pensá-la além do

televisor. Não é mais possível discutir os produtos

televisivos sem considerar que esses ultrapassam a

barreira da programação linear estipulada por uma

emissora.

O comportamento do telespectador também

é outro: ele está conectado e, consequentemente,

tudo que é exibido na televisão também está. É

ativo, inquieto, participativo e em busca daquilo que

está além. E para saciar sua curiosidade e

necessidade de sentir-se único, o aplicativo de

check-in surge como o início do caminho para ele

conquistar seus objetivos. “O check-in é

Page 43: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

simplesmente o ponto de entrada para ‘algo mais’. E

a maneira como você definir esse ‘algo mais’ que vai

determinar o sucesso da sua marca nesse universo

transmídia” (PROULX e SHEPATIN, 2012).

Neste cenário, não se pode negar que o

conteúdo deve ser pensado amplamente. A

abordagem adotada pelos grupos midiáticos deve

integrar os conceitos de produção e distribuição de

conteúdos envolvendo todos os tipos de mídia. Esse

processo transmídia se difere do que muito já foi

feito: utilizar outras plataformas, como a Internet, por

exemplo, para a criação de um site que se torna um

depositário dos mesmos conteúdos exibidos pela

programação.

Considerando que grandes empresas de

comunicação já possuem vasto conteúdo de

produtos televisivos, adequá-los a essa realidade é

uma necessidade latente. As outras plataformas e a

TV ensaiam um namoro ainda tímido, mas

promissor. Já sabemos que não são mídias

excludentes. Pelo contrário, pertencentes a um

universo transmídia de convergência que devem

desenvolver ferramentas aglutinadoras, cada qual

com seus conteúdos exclusivos que se somam. A

hora é agora e as oportunidades se moldam, em

busca desse tal ‘algo mais’.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] ARNAUT, Rodrigo Dias et al. Era Transmídia.

Revista Geminis: Ano 2, n.2, 2011. Disponível em:

<http://www.revistageminis.ufscar.br/index.php/gemi

nis/article/view/93/pdf >. Acesso em 28 Janeiro

2013.

[2] JENKINS, Henry. Cultura da Convergência. 2

ed, São Paulo: Aleph, 2009.

[3] SHIRKY, CLAY. A cultura da participação: criatividade e generosidade no mundo conectado. Rio de Janeiro: Zahar, 2011.

[4] PROULX, Mike; SHEPATIN, Stacey. Social TV: How Marketers Can Reach and Engage Audiences by Connecting Television to the Web, Social Media, and Mobile. New Jersey: John Wiley

and Sons, Inc., Hoboken, 2012.

[5] CESAR, Pablo e GREETZ, David.

Understanding Social TV: a survey. Disponível em

http://homepages.cwi.nl/~garcia/material/nem-

summit2011.pdf. Acesso em 27/07/2013.

[6] CANNITO, Newton. A televisão na era digital: interatividade, convergência e novos modelos de negócio. São Paulo: Summus, 2010.

[7] BECKER, Valdecir. Panorama da confusão tecnológica. In Revista da SET. Número 130.

Jan/Fev 2013, p. 54-56.

[8] BERNARDO, NUNO. The producers guide to transmedia: how to develop, fund, produce and distribute compelling stories across multiple plataforms. Lisboa: beActive, 2011.

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 43

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Page 44: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

A televisão a seu tempo: Netflix inova com produção de conteúdo para o público assistir como e quando

achar melhor, mesmo que seja tudo de uma vez

Juliana [email protected]

Ulysses de Santi [email protected]

44 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 45: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 45

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

A TELEVISÃO A SEU TEMPO: NETFLIX INOVA COM PRODUÇÃO DE CONTEÚDO PARA O PÚBLICO ASSISTIR COMO E QUANDO ACHAR MELHOR, MESMO QUE SEJA TUDO

DE UMA VEZ

Juliana Kulesza1, Ulysses de Santi Bibbo2

1 Fundação Armando Álvares Penteado, São Paulo, Brasil, [email protected]

2 Fundação Armando Álvares Penteado, São Paulo, Brasil, [email protected] Resumo: Este artigo analisa a entrada do serviço de

streaming online Netflix no mercado da produção de

conteúdo original, a partir do estudo de caso da série

House of Cards. Também se predispõe a demonstrar

uma mudança de paradigma no setor, introduzindo a

discussão sobre uma nova forma de consumo de

conteúdo, definida pelas possibilidades geradas por

novas tecnologias e pela voracidade de seu público.

Este novo cenário é palco do embate entre majors de

TV a cabo, até então dominantes no mercado de

conteúdo pago, com a recém chegada Netflix, onde

quem ganha é o consumidor que terá mais opções de

escolha.

Palavras chave: Netflix, binge watching, House of Cards, consumo de conteúdo, TV a cabo, serialização.

1. INTRODUÇÃO

A indústria de produção e distribuição de conteúdo

online cresce em progressão geométrica. Em 2012, a

Netflix, empresa de streaming de conteúdo online,

espantou o mercado ao ultrapassar a Comcast, -

maior operadora de cabo dos Estados Unidos -

chegando a atingir mais de 30 milhões de assinantes

em todo o mundo (VARIETY, 2013). Este número

trouxe à tona a discussão sobre o consumo de

conteúdo no formato tradicional linear de grade de

programação oferecido pelos canais de televisão,

onde o programador escolhe o que será exibido em

que horário, versus o modelo não linear, onde o

assinante escolhe o que quer assistir, quando e onde.

Mais do que uma simples novidade, a Netflix e seu

modelo de negócios podem ser considerados uma

inovação diruptiva1, pois poderiam substituir os DVDs

e as empresas de TV a cabo. Como tal, tornam-se

responsáveis pela movimentação do Ciclo2 de Tim

Wu.

O Ciclo é impulsionado por inovações diruptivas que destronam indústrias até então vicejantes, levam poderes dominantes à falência e mudam o mundo. Essas inovações são extremamente raras, mas são elas que fazem o ciclo se mover. (WU, 2010, pág 29)

A Netflix surgiu em 1997 nos Estados Unidos como

um serviço de aluguel de DVDs via correio. A princípio

o usuário pagava uma taxa pela locação e serviço

postal, mas aproximadamente dois anos depois a

empresa introduziu o modelo de assinatura mensal,

oferecendo em troca a locação ilimitada de seus

títulos. Com os avanços da Internet, em 2007 a Netflix

passou a disponibilizar todo o seu conteúdo através

de VOD (Video On Demand) em qualquer plataforma 1 Conceito criado por Clayton Christensen, que diz que a tecnologia pode ser sofisticada, mas será inovadora se implementada com o objetivo de simplificar e baratear o produto. Também chamado de inovação de ruptura. 2 Tiw Wu define O Ciclo como o fenômeno da oscilação das indústrias da informação entre posturas abertas e fechadas, ou seja, de canal de acesso livre a um meio controlado por um só cartel ou corporação.

Page 46: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

46 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

que possuísse uma conexão com a Internet, ou seja,

mantiveram o conceito mas atualizaram a mídia. Reed

Hasting, um de seus fundadores e atual CEO, já

acompanhava o avanço da tecnologia de streaming

online desde o seu surgimento e sabia que em algum

momento ela poderia ser responsável pelo fim de seu

negócio.

Seu espírito visionário assegurou, porém, a

modernização da Netflix garantindo sua longevidade

além dos DVDs. Atualmente, são cerca de 33 milhões

de assinantes em 40 países assistindo a mais de um

bilhão de horas de conteúdo ao mês a um valor fixo de

aproximadamente R$ 20,00 e em praticamente

qualquer tela.

Para Reed Hastings, dentro da próxima década todos

viverão em um mundo multiplataforma sob demanda,

no qual serviços como o dele terão tanta oferta de

conteúdo que a ideia de pagar por televisão a cabo

será inimaginável (GQ, 2013).

Para tanto, a Netflix não tem poupado esforços,

anunciando recentemente o fechamento de um

contrato com a distribuidora The Weinstein Co. dos

irmãos Weinstein, que a torna o serviço por assinatura

exclusivo para a primeira janela de exibição pós-

cinemas dos filmes da TWC a partir de 2016. Além

disso, a empresa já havia fechado contratos

semelhantes com a DreamWorks Animation em Junho

de 2013 e com a Walt Disney Co. em dezembro de

2012. Vale ressaltar que para assinar o contrato com a

TWC, a Netflix precisou desbancar a empresa de TV

a cabo Showtime Networks Co. propriedade do

conglomerado de mídia CBSCorp..

2. CONTEÚDO ORIGINAL

Foi pensando no conceito de “insatisfação

administrável”, que Hastings, deu início a um processo

que está mudando agressivamente o modelo

televisivo no que diz respeito à produção, distribuição,

consumo e divulgação de conteúdo audiovisual. De

acordo com ele, esta “insatisfação administrável” é

baseada na espera.

Você tem que esperar pela sua série que é exibida as quartas-feiras às 20h, esperar pela nova temporada, ver todos os anúncios espalhados em todo lugar sobre a nova temporada, falar com seus amigos no trabalho sobre o quão empolgado você está. (GQ, 2013)

Mas esta espera acabou. Em fevereiro de 2013, a

Netflix lançou de uma só vez todos os 13 episódios da

primeira temporada da série House of Cards, um

drama político produzido por David Finch e Beau

Willimon. Estrelando Kevin Spacey, Robin Wright,

Kate Mara e Corey Stoll, entre outros, House of Cards

é uma adaptação de uma minissérie da BBC de

mesmo nome.

Lançada recentemente, a série já fez história ao

receber 14 indicações nos prêmios Emmy da televisão

norte-americana e vencer em três categorias: melhor

diretor, elenco e fotografia. Tornando-se a primeira

série produzida exclusivamente para uma plataforma

online a alcançar este feito. As conquistas no Emmy,

quase quinze anos após a série The Sopranos ter se

tornado a primeira série de TV a cabo a receber a

indicação de melhor série dramática, apontam uma

importante validação do modelo de streaming online e

da produção de conteúdo original da Netflix.

3. A SÉRIE

House of Cards é um retrato cruel da política e, mais

amplamente, das relações humanas. Na história,

depois de perder a oportunidade de exercer o cargo

de Secretário de Estado, o congressista republicano

Frank Underwood (Kevin Spacey) inicia uma

campanha para derrubar o Presidente. No seu plano

de vingança Underwood passa a manipular, mentir e

montar dossiês para detonar o governo.

Page 47: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 47

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

As peças mais importantes neste jogo são a jornalista

Zoe Barnes (Kate Mara) e o congressista Peter Russo

(Corey Stoll). Zoe é uma repórter ambiciosa e

subutilizada no jornal (fictício) Washington Herald.

Russo luta contra seus demônios pessoais –

alcoolismo e drogas – e graças às suas fraquezas

acaba se tornando leal a Underwood. E é dele o arco

dramático da temporada: ao longo dos episódios ele

desce ao fundo do poço por conta de seus vícios, e

acaba sendo resgatado por Underwood, que vai usar

este trunfo em troca de favores e influência.

O grande diferencial da série é a quebra da quarta

parede3 pelo personagem principal. Entre um plano

diabólico e outro, ele não se incomoda em conversar

com a audiência sobre as hipocrisias, as injustiças e a

realidade que o cerca. Essa fuga de regras apenas

enriquece o arco dramático proposto – que, vale notar,

não se encerra com a temporada.

Lançar todos os episódios de uma única vez foi a

tática utilizada pela Netflix para alimentar um

fenômeno que ajudou a criar: o binge watching, ou em

tradução livre, “assistir até se entupir”. Também pode

ser definido como qualquer instância na qual mais de

três episódios de uma série dramática de uma hora de

duração ou seis episódios de uma série cômica de

meia hora de duração são consumidos de uma única

vez, através de DVDs ou serviços de streaming online

(THE LOS ANGELES TIMES, 2013).

Dando continuidade a esta estratégia, a Netflix –

principal facilitadora do binge watching e que de

acordo com o The Wall Street Journal observou um

aumento de 38% na quantidade de série assistidas

por semana pelos seus assinantes desde 2009 (THE

HARVARD CRIMSON, 2013) - lançou em seguida

Orange is the New Black, a quarta temporada de

Arrested Development e planeja produzir pelo menos

cinco séries originais por ano “A meta é nos 3 Quarta parede é o termo utilizado para se referir à parede imaginária situada onde está a câmera, através da qual a platéia assiste passiva à ação do mundo encenado.

transformarmos na HBO mais rápido do que a HBO

consiga se transformar em nós.”, diz Ted Sarandos

(GQ, 2013), o diretor de conteúdo da empresa e

responsável por aliciar os melhores profissionais do

mercado para trabalhar em suas produções.

E a proposta de Sarandos é bem atraente. Com um

orçamento para os próximos três anos de U$300

milhões para a produção de conteúdo original, ele

oferece completa liberdade criativa em sua exploração

dos limites do storytelling. Para ele, o binge watching

elimina a necessidade de algumas ferramentas como

a recapitulação, a uniformidade de duração dos

episódios e oferece a chance de uma mudança

significativa na narrativa afastando ainda mais a

barreira entre televisão e cinema.

No caso específico de House of Cards, a série é

claramente estruturada para o consumo por binge

watching. Cada episódio é intitulado como “capítulo”.

Não existem flashbacks introdutórios, comuns nas

séries tradicionais e ao final de quase todo episódio, o

cliffhanger (exposição do personagem a uma situação

limite, precária, tal como um dilema ou o confronto

com uma revelação surpreendente) é tão

desconcertante que cria a necessidade do testemunho

de algum tipo de resolução. Ou seja, o telespectador

precisa continuar assistindo.

A produção e distribuição de conteúdo original não

para com a Netflix, a Amazon também anunciou que

sua recém-criada divisão, AmazonStudios, iria lançar

um número de pilotos de séries em potencial e que o

público poderia ajudar a decidir quais entrariam em

produção. Solicitou também, roteiros e ideias de

criadores que quisessem ser inclusos na iniciativa.

Essa forma de consumo de conteúdo parece ser uma

tendência que veio para ficar, mas será ela capaz de

tomar o lugar da TV convencional? A produção deste

conteúdo terá que se adequar a ela?

Page 48: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

4. BINGE WATCHING – QUANDO O FINAL DE UM EPISÓDIO NÃO SIGNIFICA MAIS DESLIGAR

A revista Forbes publicou em maio de 2013 uma

recente pesquisa realizada pela empresa de relações

públicas Edelman, de acordo com a qual 88% das

pessoas entrevistadas em um estudo global disseram

querer assistir a mais de um episódio de sua série

favorita por vez e que desejam discuti-la com os

amigos instantaneamente (FORBES, 2013). E, mais,

as pessoas que praticam o binge watching uma vez, o

praticam novamente.4

O professor Robert Thompson, especialista em TV e

cultura pop da Universidade de Syracuse, por

exemplo, confessa ter assistido a todos os 13

episódios de House of Cards nas primeiras 24 horas

após seu lançamento na Netflix.

Eu acho que a melhor forma de assistir a esses novos programas serializados de alta qualidade é por binge watching. A forma ideal de assistir BreakingBad, The Wire, Homeland ou Dexter é da mesma forma que você leria um romance – e você não leria um único capítulo de Moby Dick por semana. Se você tem o tempo livre e consegue fazer isso e se agora você tem essa opção, é uma excelente forma de assistir a esses programas. (THE POST STANDART, 2013)

Os efeitos do binge watching sobre seus praticantes

em longo prazo ainda não podem ser avaliados mas

alguns profissionais de psicologia já expressam suas

opiniões sobre o que pode levar a esse tipo de

consumo (FOLHA DE S. PAULO, 2013). Para o

professor José Leon Crochík, do Instituto de

Psicologia da USP, o sentimento de ansiedade é a

chave para entender este comportamento.

4Outro estudo conduzido pela consultoria de mídia Frank N. Magid Associates Inc., mostra que a maioria dos norte-americanos entre as idades de 8 e 66 anos admitiram se engajar nessa forma de consumo de conteúdo.

Estamos mais ansiosos para concluir o que começamos. O prazer, a atenção e a compreensão do que fazemos ou assistimos diminui. Isso se aproxima de compulsão: uma atividade que se repete infindavelmente e cujo sentido é a própria repetição.

Em contrapartida a professora da PUC Rosa Maria

Farah, defende a pro atividade embutida no ato de

consumir por binge watching proveniente de um

aumento de escolha do espectador e acredita que

“quem tem propensão à ansiedade vai expressar isso,

mas formas de lidar com a tecnologia variam como os

tipos humanos."

Já em 2004, Betsy Frank, vice-presidente executiva de

pesquisa e planejamento da MTV Networks, antevia

uma mudança no perfil do consumidor, moldada a

partir das novas possibilidades tecnológicas que

tinham ao seu alcance.

O grupo de pessoas nascidas a partir de meados da década de 1970, que nunca conheceram um mundo sem tv a cabo, videocassete ou Internet, que nunca tiveram de se conformar com escolhas forçadas ou com o programa menos objetável, que cresceram com uma atitude 'o que eu quero, quando eu quero' diante das mídias e, assim, desempenham um papel muito mais ativo em suas escolhas. (FRANK, 2004)

Disponibilizar séries inteiras online de uma só vez não

mudou apenas o comportamento do público com

relação ao seu consumo, abriu também novas

possibilidades para os produtores de TV. No caso de

Arrested Development cada novo episódio é focado

em um personagem diferente, uma abordagem que

talvez frustrasse os telespectadores que estivessem

assistindo a um novo episódio a cada semana.

Esse novo formato oferece aos roteiristas um maior

leque de oportunidades narrativas. O consumo por

binge watching se adequa melhor a tramas altamente

serializadas, que possuem muitos enredos,

48 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 49: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 49

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

personagens e reviravoltas que prendam a atenção da

audiência, potencializando o vício. Essas tramas

adotam uma narrativa contínua de longo formato que

entrelaça histórias através das temporadas ou através

da série inteira, como foi feito em Lost. Elas remetem

a capítulos de um romance devido às formas como os

temas, os episódios e as temporadas se desdobram

continuamente, construindo em cima das teias das

tramas e dos arcos dos personagens com o passar do

tempo. Diferentemente do padrão das tramas não

serializadas, tudo o que acontece com os

personagens, impacta os episódios subsequentes e

pode recontextualizar ações e acontecimentos de

episódios passados.

Para Thompson, muitas séries hoje em dia têm sido

pensadas e produzidas para serem assistidas de uma

só vez. A continuidade e a habilidade de ver sutilezas

e conexões entre os episódios tem tornado mais

importantes nas séries. Antes da serialização não

havia porque assistir a várias horas do mesmo

programa já que cada episódio se resolvia sozinho.

5. NETFLIX VS. CABO

“A Netflix se tornou o que a HBO era em 1999, quando

estava se tornando a líder na produção de conteúdo

original de alta qualidade.” diz Thompson. House of

Cards parece algo que poderia ter sido visto na HBO.

Tem um grande astro Kevin Spacey, uma temporada

completa de 13 episódios e um alto orçamento.

A decisão de produzir uma série dramática com um

custo de U$100 milhões com Kevin Spacey e David

Fincher é, de fato, um passo em direção aos canais a

cabo premium como a HBO e o Showtime e é o

próximo passo lógico para os serviços de streaming

de conteúdo online, oferecer aos consumidores mais

uma razão e uma razão mais forte para visitá-los. Se a

Netflix tivesse lançado House of Cards no formato

tradicional semanal, ela não só estaria abandonando o

modelo específico do seu próprio serviço como

pareceria querer copiar aqueles canais. Dessa forma,

ela demonstra que não é necessário ter um pacote

caro de tv a cabo premium para ter acesso a um

conteúdo de alta qualidade, só são necessárias uma

conexão de internet e uma mensalidade de baixo

custo.

Por enquanto, porém, a Netflix ainda não consegue

competir com as redes de televisão que produzem

dezenas de shows por ano e oferecem programação

original quase o dia todo. A HBO, por exemplo, produz

conteúdo há mais de 25 anos e possui 114 milhões de

assinantes, quase quatro vezes mais que sua mais

nova concorrente digital. E, por isso, não estaria muito

preocupada com ela. Segundo Jeff Bewkes, CEO da

Time Warner, a Netflix ainda teria um longo caminho

pela frente para atingir os grandes canais de TV a

cabo em escala. Ainda que atrás das redes rivais em

quantidade, a Netflix se garante na qualidade e

mesmo que a HBO não se mostre muito preocupada

no momento, o cenário tende a mudar em poucos

anos, com mais alguns lançamentos.

Ainda assim, já existe uma movimentação de algumas

empresas do setor para tentar frear o aparente

despontamento da Netflix na corrida pela liderança do

mercado.

Mesmo não tendo sido a percursora na ideia de

conteúdo sob demanda – a Comcast diz ter lançado

este serviço há uma década quando a Netflix ainda

apenas enviava DVDs pelo correio – a grande

diferença está na qualidade do conteúdo

disponibilizado pelas operadoras de cabo (Comcast

nos EUA, NET NOW no Brasil) e alguns canais

específicos (HBO GO, Telecine On Demand) e pelos

serviços estritamente online como a Netflix, Hulu,

NetMovies, YouTube, Google Play e iTunes.

As operadoras e os canais oferecem, sem custo

adicional ao já pago pelo pacote, apenas uma seleção

restrita de filmes exibidos recentemente e não mais

que cinco episódios de algumas séries, sendo que

Page 50: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

50 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

todo esse conteúdo tem prazo de validade e logo são

excluídos e substituídos por outros. Já os serviços

online, a Netflix especialmente, oferecem uma

infinidade de conteúdos entre filme e temporadas

completas de seriados, seja por assinatura mensal ou

compra de filmes e episódios individuais.

Isso está para mudar. De acordo com uma matéria do

Wall Street Journal, a Comcast teria fechado um

acordo com a 21st Century Fox Inc. para disponibilizar

em seu serviço on demand, temporadas completas de

algumas de suas séries (WALL STREET JOURNAL,

2013). Essa jogada elucida muito bem o “efeito

Cronos”: as medidas tomadas por uma empresa

dominante para destruir seus potenciais sucessores

ainda na infância (WU, 2010).

Dessa forma, a indústria do cabo garante uma maior

exploração dos conteúdos antes que cheguem nos

serviços online e inflaciona os valores de compra de

suas primeiras janelas pós-cinema.

Fica a dúvida se a Netflix conseguirá bancar

financeiramente a sua presença neste mercado ou se

isso não será necessário caso consiga oferecer um

volume maior de produções originais de qualidade.

6. CONCLUSÃO

O que se pode enxergar no futuro do mercado de

conteúdo pago é que ele parece ser cada vez mais

fragmentado. Com a quantidade de serviços

disputando a atenção dos consumidores e criando

conteúdos exclusivos para atraí-los, é provável que

nunca haja um único serviço que ofereça todas as

opções em um único lugar. Sempre existirá a

demanda pela grade de programação convencional

quando o que se quer é apenas a “companhia” da

televisão. E para os serviços que atendem os

devoradores de conteúdo, como a maioria não tem um

contrato de longo prazo e o conteúdo oferecido não é

no formato de uma grade de programação

convencional, é possível assistir a uma série em

qualquer espaço de tempo. Dessa forma, os

consumidores podem se tornar itinerantes, sempre

procurando pelos melhores conteúdos e mudando de

serviços mensalmente.

REFERÊNCIAS

VARIETY, 2013. Netflix surpasses HBO in U.S.

subscribers. Disponível em <http://variety.com/2013/

digital/news/netflix-surpasses-hbo-in-u-s-subscribers-

1200406437/>. Acesso em 05/08/2013.

WU, T. Impérios da Comunicação. Do telefone à

Internet, da AT&T ao Google. Editora Zahar, 2010.

GQ, 2013. And the Award for the Next HBO Goes to...

Disponível em <http://www.gq.com/entertainment/

movies-and-tv/201302/netflix-founder-reed-hastings-

house-of-cards-arrested-

development?currentPage=1>. Acesso em

15/08/2013.

VARIETY, 2013. Netflix Inks Pact with The Weinstein

Co. for Pay TV Window. Disponível em

<http://variety.com/2013/digital/news/netflix-inks-pact-

with-the-weinstein-co-for-pay-tv-window-

1200582278/>. Acesso em 25/08/2013.

THE LOS ANGELES TIMES, 2013. Binge-viewing is

transforming the television experience. Disponível em

<http://articles.latimes.com/2013/feb/01/entertain-

ment/la-et-ct-binge-viewing-20130201>. Acesso em

20/06/2013.

THE HARVARD CRIMSON, 2013. The new binge.

Disponível em <http://www.thecrimson.com/article/

2013/1/30/Harvard-binge-Netflix/>. Acesso em

20/06/2013.

FORBES, 2013. Binge watching is our future.

Disponível em <http://www.forbes.com/sites/

Page 51: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 51

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

dorothypomerantz/2013/05/29/binge-watching-is-our-

future/>. Acesso em 21/06/2013.

THE POST STANDART, 2013. ‘Arrested

Development’: Why binge-watching and Netflix

‘cheating’ aren’t all bad. Disponível em

<http://www.syracuse.com/entertainment/index.ssf/201

3/05/arrested_development_binge_watching_netflix_c

heating.html. >. Acesso em 17/08/2013.

FOLHA DE S. PAULO, 2013. Tv sob demanda e

Internet mudam atitudes do espectador que está mais

ansioso e viciado. Disponível em <http://www1.folha

.uol.com.br/ilustrada/2013/09/1346222-tv-sob-

demanda-e-internet-mudam-atitudes-do-espectador-

que-esta-mais-ansioso-e-viciado.shtml.>. Acesso em

10/08/2013.

FRANK, Besty “Changing Media, Changing

Audiences”. MIT Comunications Forum, abril / 2004

Disponível em <http://web.mit.edu/comm-

forum/forums/ changing_audiences.html>, in

JENKINS, Henry. Cultura da Convergência. 2. ed. São

Paulo: Aleph, 2009.

WALL STREET JOURNAL, 2013. Cable fights to feed

‘binge’ TV viewers. Disponível em

<http://online.wsj.com/article/SB100014241278873248

07704579083170996190590.html>. Acessado em

20/09/2013.

JENKINS, Henry. Cultura da Convergência. 2. ed.

São Paulo: Aleph, 2009.

Page 52: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

A (re) valorização do locutor na internet: estratégias do rádio em um cenário de reconfiguração digital

Daniel [email protected]

Eduardo [email protected]

52 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 53: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 53

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

A (RE) VALORIZAÇÃO DO LOCUTOR NA INTERNET: ESTRATÉGIAS DO RÁDIO EM UM CENÁRIO DE RECONFIGURAÇÃO DIGITAL

Daniel Gambaro 1, Eduardo Vicente 2

1 Universidade Anhembi Morumbi, São Paulo, Brasil, [email protected]

2 Escola de Comunicação e Artes/Universidade de São Paulo, São Paulo Brasil, [email protected] Resumo: O presente artigo traça uma breve reflexão sobre o modo como as tecnologias digitais estão reconfigurando as formas de produzir e consumir rádio. O principal argumento gira em torno da figura do locutor de rádio FM e sua renovada importância em estratégias de vinculação e fidelização da audiência, aliada a outras estratégias que podem ser empreendidas pelas emissoras de rádio. Para tanto, foi desenvolvida uma pesquisa com locutores do dial FM paulistano, que expressaram suas opiniões sobre o cenário.

Palavras chave: rádio, internet, locutor, apresentador radiofônico.

INTRODUÇÃO Em um recente encontro internacional sobre rádio

realizado em julho [1], na Inglaterra, uma tônica permeou algumas apresentações e debates sobre o rádio: como as ferramentas digitais mudam a forma de consumo radiofônico. Há, sem sombra de dúvida, um nivelamento da pesquisa internacional que vê o rádio hoje como uma linguagem, serviço ou, nas palavras do professor Tim Wall [2], uma instituição. A ele se ligam diferentes conteúdos, primariamente em áudio.

Os títulos de algumas apresentações sugerem, inclusive, um olhar que já considera o rádio totalmente inserido no ambiente digital. Por exemplo “It’s not television, it’s radio with pictures”, do professor Richard Berry da Universidade de Sunderland, Inglaterra; ou “Radio Audience participation’s duality: new technologies, new dilemas”, da pesquisadora Asta Zelenkauskaite, da Drexel University, EUA. O primeiro trabalho demostrou como algumas emissoras britânicas voltadas para o público jovem estão criando produções em vídeo para complementar as transmissões em áudio. Em um dos exemplos, o show de uma dupla de apresentadores é transmitido integralmente ao vivo, tanto pelo rádio como pela web, e os ouvintes propõem atividades que, mesmo na tela, não anulam as características da produção radiofônica. Já a segunda apresentação mostrou uma investigação mais sistemática sobre participações de ouvintes via redes sociais, e suas vinculações tanto com a emissora como entre os próprios ouvintes a partir dos serviços de uma emissora de rádio italiana.

Outras pesquisas tentavam dar conta da forma como as emissoras estão usando a web, especialmente com relação à oferta de informação em

seus sites. Uma pesquisa que está sendo iniciada na Universidade do Minho, Portugal [3], tenta demonstrar como a forma das emissoras de notícia articularem suas páginas na internet valoriza pouco o áudio e apresenta quase nenhuma especificidade da web. Assim, ao se assemelhar a portais de notícia comuns, essas emissoras vêm deixando de lado características importantes do meio e do suporte a que se condiciona.

Essas discussões emergem principalmente em mercados de rádio que possuem construções seguramente diferentes daquela que encontramos no Brasil, a começar pela forma como a programação radiofônica é articulada – com maior atenção à segmentação da audiência e baseada na vinculação ouvinte/locutor. Tanto uma estrutura comercial melhor composta como um costume enraizado de ouvir rádio permitem que o veículo se configure dessa forma, com maior presença da voz do apresentador no ar. No entanto, a preocupação central sobre o impacto da internet hoje permeia a produção científica sobre o assunto. Afinal, de modo similar em diferentes países, há um deslocamento do uso do rádio para outra plataforma tecnológica e ampliação da oferta de conteúdo e concorrência, o que pode colocar o mercado de emissoras rádio em xeque.

Essa perspectiva internacional acrescenta algumas questões ao debate radiofônico no Brasil: no centro da relação ouvinte/emissora, quais os elementos de vinculação realmente usados? Como as novas ferramentas digitais são acrescentadas no cotidiano radiofônico? Mais ainda, como elas propõem uma nova forma de consumir o rádio, adicionando inclusive novos usos? São questões centrais em um processo que vise a manutenção da fidelidade da audiência. No ano passado, um e-book lançado pelo Grupo de Rádio e Mídia Sonora do Intercom [4] reuniu diferentes artigos que deram continuidade aos debates que vêm sendo empreendidos pelo grupo nos últimos anos. No caso brasileiro, o tônus central da discussão passa pela tecnologia, pela definição sobre o que é rádio, e pela forma como o jornalismo – principalmente – usa as redes sociais. Ainda é pequeno o debate sobre questões de usos e formas de produção, cuja ampliação parece ser crucial neste momento em que o mercado radiofônico vive um movimento de retração que começa a acelerar.

O rádio entrou nos anos 2000 com uma situação relativamente estável: a participação publicitária girava em torno de 4,5% e se manteve assim ano a ano,

Page 54: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

54 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

crescendo em valor em proporção semelhante ao restante do investimento em publicidade. Já a penetração do veículo atingia cerca de 90% da população, segundo dados acumulados pelo projeto Mídia Dados com a Ipsos/Marplan. O problema é que esse cenário começou a mudar em 2005, com a popularização do acesso à internet no Brasil. A penetração do meio, ainda com dados da Ipsos/Marplan [5], caiu para cerca de 74% em 2012, e a participação do rádio na publicidade, no mesmo ano, foi de cerca de 3,9%, segundo a revista Meio&Mensagem [6]. O mercado paulistano concentra a maior parte dessa verba, e portanto é onde se desenha o recorte que fazemos neste artigo (39,5% da publicidade em rádio foi investido na região metropolitana de São Paulo).

Assim, propomos discutir a produção radiofônica, a partir da recontextualização do consumo de rádio por conta da tecnologia digital [7]. Essa perspectiva, no entanto, só faz sentido se resgatarmos o papel ativo do apresentador radiofônico: tendo sido o principal elo de ligação entre emissoras e ouvintes pelo menos até os anos 1990, a revalorização de sua personalidade parece ser elemento central de um rádio que se propõe em contato imediato com o ouvinte.

Sugere-se que um dos possíveis caminhos é uma ação integrada bem elaborada do papel do locutor FM com as ferramentas e ofertas de conteúdo digitais: maior presença no ar, criando um vínculo sonoro com o ouvinte, e a ampliação da esfera de sua personalidade a partir do ambiente digital. Para realizar esta tarefa, conversamos com alguns locutores de rádio FM da cidade de São Paulo que, de alguma forma, se destacam pelo tempo de emissora e elo criado com o ouvinte, ou pelo uso que fazem da web como plataforma para ampliarem o contato com a audiência, tanto em seus programas como fora deles. São eles Roberto Hais, da rádio Disney; PH Dragani e Cadu Previero, da 89FM; Milton Jung, da CBN São Paulo; Sandra Groth, da 105FM; Marco Antônio, da Kiss FM; e Laerte Gouveia, da rádio Transcontinental. Tentou-se, com esta seleção, uma boa representatividade de emissoras de diferentes estilos, usando como parâmetro a forma como os ouvintes se relacionam com os locutores tanto pelos meios digitais como analógicos.

1. CONSTRUÇÃO DE UM FM SEM VOZ Não é uma novidade a afirmação de que todo o

cenário da comunicação de massa atravessa um período de questionamentos, visto que são poucas as certezas estabelecidas diante da mudança acelerada que os avanços digitais da última década proporcionaram. Estão alinhados no caminho das discussões temas diversos, como a manutenção da publicidade vinculada a programas e grades de programação, novos usos e acessos do público ao conteúdo produzido, e a necessidade de especialização ou segmentação na oferta de

informações por parte das empresas produtoras de conteúdo. Esta última abordagem, em especial, vem colocando em xeque o modo como observamos as grandes empresas de rádio e TV, baseadas principalmente em um público sempre muito amplo.

Claro, não podemos perder a perspectiva de que esse é um processo em andamento de prazo indeterminado, e que o cenário final pode ser diverso do que estamos supondo neste momento. No entanto, olhando especificamente para o rádio, percebemos que existe a necessidade de uma tomada de ação mais clara e imediata, devido às recentes perdas de público e uma leve queda das receitas do veículo, que crescem ano a ano em ritmo menor que a inflação.

Ao olharmos para a história do rádio desde os anos 1960 – após a implantação da TV no Brasil – percebemos uma reconfiguração natural da audiência, que migra de horário e passa a consumir outro tipo de programação, de forma individualizada. Da audiência coletiva e atenta para o solitário em trânsito, essa é uma mudança que afeta inclusive os níveis de atenção dedicados à programação radiofônica [8]. Nesse cenário, passa a fazer sentido que o locutor marque maior presença na programação, tornando-se importante elo de vínculação entre emissora e ouvinte. Seja o comunicador do AM ou o DJ do FM, seu nome e sua personalidade contam bastante na lógica de fidelização de público por meio do contato íntimo com a audiência. Essa escolha também tem um caráter econômico: produções mais caras, como a ficção radiofônica, encontram menos espaços por motivos como a importância da TV em prover esse tipo de produção; o já mencionado menor nível de atenção da audiência; o encolhimento da participação publicitária do rádio, uma vez que a verba investida no meio não cresce, nos anos seguintes, na mesma proporção que o bolo publicitário total – lembrando que este último sofre grande expansão devido, principalmente, ao desenvolvimento da economia brasileira.

Durante as décadas de 1980 e 1990, principalmente, o dial FM passa a concentrar a maior parte da audiência de rádio – e, consequentemente, dos investimentos publicitários. No entanto, como reflexo da situação econômica do meio, também passa-se a investir menos em programação e na personalidade dos locutores, até a implantação de dois modelos de emissoras que quase definitivamente enterram esse “locutor com personalidade”: as rádios em rede e o modelo extremamente musical das rádios “jovens” nas grandes capitais, influência para os maiores mercados consumidores. Essa mudança, é mencionada por diferentes locutores entrevistados para esta pesquisa, como por exemplo Roberto Hais:

“...não se tinha [nos anos 1980] muitas rádios concorrentes, e depois, houve a segmentação do rádio: o rádio jovem, o rádio popular, a rádio News, a rádio qualificada... Essa mudança começou no final dos anos 1980 com a vinda da Transamérica – houve uma

Page 55: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 55

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

segmentação do rádio, o que fez com que houvesse os perfis.”

O assunto foi debatido por diferentes pesquisadores, como Marcelo Kishinhevsky. Para ele, o processo de segmentação sempre privilegiou muito mais a abrangência de público, o que ajudaria a explicar uma certa padronização da voz do locutor nas emissoras FM:

“Ao invés de identificar seus targets, as emissoras, ou a direção das redes a que pertenciam, foram incapazes de acompanhar a montanha-russa da diferenciação da audiência, estabelecendo segmentos de público abrangentes [...] na prática, ninguém conhecia a nova audiência, segmentada, plural, com suas demandas inéditas. Havia muito mais no país do samba e do futebol do que conseguiam enxergar os executivos das emissoras.” [9]

Esse processo de segmentação que se seguiu na década de 1990, redundou na perda de significação do papel do locutor como centro do programa na maior parte das rádios – com algumas exceções em umas poucas emissoras populares. Se, na década de 1980, havia até chamada em televisão para anunciar a troca de emissora por um determinado locutor, na década de 1990 a voz dele no rádio começa a diminuir.

2. O PERFIL DO LOCUTOR FM E SUA RELEVÂNCIA

2.1 O locutor sem voz O perfil predominante do locutor em emissoras

segmentadas em estilos musicais específicos, especialmente as jovens e as easy listening, é de um apresentador sem nome. A comunicabilidade entre locutor e ouvinte é prejudicada. Roberto Hais, cuja carreira é principalmente baseada em emissoras jovens, afirma que isso é resultado direto da segmentação na década de 1990, uma vez que as emissoras foram, aos poucos, suprimindo o papo com o ouvinte. Não existe espaço para opinião do locutor na jovem, mas “deveria ter”, de acordo com Hais.

A opinião de diferentes locutores, de outros segmentos, não é muito diferente disso. Marco Antonio afirma que é “tudo tão engessado; tão padrão; tem rádio que não deixa o locutor falar o nome”. Sandra Groth, locutora do segmento popular, lembra como isso impacta nos índices de audiência:

“Se você for ver o Ibope, Jovem Pan, Mix, estão tudo derrubadas, estão com o Ibope lá embaixo. [...] está faltando interagir. [elas] não falam, eles tocam música, fazem promoção e acabou...”

É unanimidade entre os locutores que existe a necessidade de maior interação e maior personalidade no contato com o ouvinte, especialmente em emissoras segmentadas no público jovem ou em estilos musicais que exigiriam especialização dos locutores no conhecimento histórico e musical do que tocam. Locutores da 89FM, uma emissora jovem que

começa a testar um novo modelo de contato com o ouvinte, PH Dragani e Cadu Previero defendem a profissão e alertam para os riscos profissionais que essa redução da importância do locutor traz:

“Aí o trabalho acaba sendo desvalorizado e mal remunerado, cada vez mais.” “Eu acho que o profissional, no ar, deve se sentir um pouco desmotivado.” “São 4 horas que você fica no ar e você não tem o feedback do ouvinte, você quer falar mas não pode, fica sendo podado.”

2.2 O locutor da popular Na outra ponta estão presentes as emissoras

chamadas populares, que são aquelas que abrangem em sua programação uma gama bastante variada de músicas brasileiras de diferentes segmentos. Se, ainda hoje, muitas populares apontam para o mesmo caminho das outras emissoras – que é a quase total eliminação do locutor do dial – muitas investem no caminho contrário. Laerte Gouveia, o locutor mais ouvido do meio da noite no rádio paulistano, comenta o sucesso da emissora em que trabalha:

“A Trans é líder hoje em praticamente todos os horários. Ela é uma rádio popular e isso ajuda bastante... a nossa ideia, nossa filosofia, é deixar o ouvinte à vontade. É deixar que o ouvinte se sinta amigo da rádio... A rádio é um grande companheiro. É mais que um companheiro, e representa histórias, grandes momentos... E a gente acaba fazendo amizade com as pessoas, principalmente com aqueles que estão lá direto.”

O mesmo afirma Sandra Groth, uma das vozes mais ouvidas no período da manhã:

“Eu tenho que trazer [o ouvinte] para uma roda de mesa, pra sentar comigo e conversar comigo. Mesmo que não esteja me vendo. Eu estou aqui falando uma coisa e [ele] está do outro lado falando sozinho comigo no rádio [...] e aí tem vontade de ligar, de falar, de participar. É essa a mudança.”

Assim, a intimidade entre ouvinte e locutor é efetivamente um componente no que representa o papel do rádio. Trata-se, claramente, de uma aproximação com uma forma de fazer rádio mais antiga, introduzida no Brasil entre as décadas de 1960 e 1970. Como podemos perceber, apesar de seguir a lógica de predominância musical na FM e adequação a uma plástica que dialoga com ouvintes e anunciantes, esse apresentador da rádio popular guarda para si uma personalidade tão importante como a que o locutor da AM tem desde a década de 1960. E, segundo muitos locutores, é esse espaço de comunicação com o público que garante índices de audiência mais altos. A comparação feita por Roberto Hais gera uma pergunta importante neste contexto:

“No rádio popular você precisa comunicar, você precisa ter a sua personalidade, ou a pessoa te deixa. Por que o rádio jovem, hoje, não pode pegar o exemplo da rádio popular, e levar isso para uma comunicabilidade (que era comum) nos anos 1990?”

Page 56: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

56 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Para tentar responder a esse questionamento, é importante analisar como seria a construção do perfil desse locutor que possui grande representatividade com o público.

2.3 A marca pessoal do locutor Os traços de comunicabilidade, citados por Hais,

estão presentes principalmente no trabalho que os locutores das emissoras populares fazem. Em resumo, é a criação de uma marca eficaz que tem dois pilares de sustentação bastante sólidos: primeiro, a possibilidade de se comunicar com o ouvinte abertamente e, segundo, ser um personagem que serve como referência.

No primeiro aspecto, da comunicação, conta bastante a experiência e o preparo que o profissional tem. Os entrevistados afirmam que conseguiram esse reconhecimento a partir de suas experiências pessoais, mas reconhecem que as emissoras em que trabalham, ao permitirem formas menos padronizadas de contato com o ouvinte, também se tornam fundamentais nesse contexto. Como afirma Marco Antonio,

“[estou] há tanto tempo no ar que galguei esse espaço. Se alguém está deixando [eu fazer meu serviço]... é porque está funcionando, a galera está curtindo, mas eu não teria isso em outro lugar”.

Na formação dos locutores PH Dragani e Cadu Previero, por exemplo, existiu um profissional nos anos 1990 que ajudava a afinar o que seria dito no ar, o coordenador de locução. Em outra palavras, seguindo a plástica da rádio e uma clareza para selecionar o que seria falado, esses locutores ganharam a possibilidade de criar um estilo e uma forma pessoal de comunicação. Surge, daí, o segundo pilar, que é a criação de uma personalidade, o que representa essa marca pessoal hoje em dia.

Marco Antonio é um bom exemplo desse perfil de locutor, com estilo claro, a que nos referimos. Ele tem um personagem, o “Titio”, e é sob esse nome que ele apresenta seu programa e, consequentemente, suas opiniões sobre os diferentes assuntos que comenta. Sandra Groth, há tanto tempo no ar, também criou uma relação íntima e alimenta o seu horário com um perfil de personagem que dialoga de modo bem coloquial e íntimo com os ouvintes, inclusive assumindo um apelido dado por eles. No caso dela, trata-se de um perfil profissional em uma emissora popular, em que, como vimos, o contato com o ouvinte é muito mais próximo. A análise fica ainda mais interessante quando olhamos para os casos de PH Dragani e Cadu Previero, locutores que possuem horários próprios na emissora em que trabalham: “Cada um tem o seu estilo, você tem seu nome, seu estilo, a sua maneira de fazer o horário, cada um é diferenciado”.

Como lembra Roberto Hais, o locutor bem preparado reconhece o seu público e articula com suas referências pessoais:

“tem que conhecer o público para o qual [o locutor] está trabalhando, para quem ele vai falar... e sempre vai pegar o exemplo de alguém que ele gosta muito de ouvir: vai se basear, pra fazer o seu trabalho, em alguém que gosta e que deu certo”.

Os estilos próprios e individuais de cada locutor e a forma como eles apresentam e exploram as opiniões pessoais, colaborando para uma assinatura geral da emissora, geram algo ainda mais fundamental para esse perfil atualizado do locutor: a credibilidade.

Mesmo em tempos de internet, em que existe a complementaridade entre os diferentes espaços de veiculação da informação, o locutor se mantém o mais importante representante da emissora. Afirma Cadu Previero: “Tudo é afunilado no locutor. Todos os departamentos são importantes, mas é o de locução que é o elo com o ouvinte. É a cara da rádio”. E essa “cara da rádio” se constrói a partir de uma relação transparente, íntima e preenchida com informações fundamentadas. No preparo do locutor – especialmente em uma rádio segmentada por estilo musical – é essencial que ele se aprofunde em conhecer os aspectos que são mais caros aos ouvintes.

Mais além, se a questão da credibilidade é importante em uma emissora musical, é mais em uma emissora jornalística. Milton Jung vai direto ao ponto, ao comentar que, uma vez que seu negócio é a notícia, a emissora de rádio deve prover uma estrutura razoável para suficientemente permitir a apuração dos fatos.

“Eu não posso falar de qualquer assunto simplesmente porque saiu em qualquer lugar... não posso simplesmente fazer, como um cidadão comum faria, uma crítica a alguém... o meu negócio é a credibilidade, e eu não posso abrir mão disso”.

2.4 A voz do locutor: morte e vida No limite, a exposição que fizemos até aqui do perfil desejável de um locutor acaba representando a principal defesa feita neste artigo: que sua presença é tão essencial que precisa ser reforçada dentro do espaço da rádio. Conforme Sandra Groth:

“O [ouvinte] não está 24 horas ligado no rádio, ele vai ouvir a música que ele quer, baixar o que ele quer, e acabou. O rádio, o apresentador, tem que se fazer vivo ali, porque é de onde vai vir uma identificação pro ouvinte te ouvir... A pessoa está ligando pra ouvir o apresentador, então a gente está voltando a ser apresentador... só assim que [o rádio] vai conseguir seguir em frente... quando [o locutor] não interage, vai meio que morrendo dentro do rádio.”

Para todos os locutores entrevistados, é fundamental que o ouvinte se sinta presente em uma conversa com o locutor, e isso só é possível com esse profissional que guarda uma personalidade e tem espaço na

Page 57: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 57

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

programação para poder falar. Além disso, a rádio essencialmente musical – algo para o qual as emissoras FM caminharam nos anos 1990 – não surpreende mais o ouvinte. Nas palavras de Marco Antonio, o rádio tem “o fator surpresa”. Cadu Previero completa, afirmando que

“por mais que você tenha um playlist... o locutor faz o papel humano costurando essas músicas todas, falando a hora, dando um bom dia e um tchau. Existe uma vida no rádio e eu acho que essa vida é o locutor”.

Laerte Gouveia complementa: “As pessoas têm vários motivos para não ouvir rádio, mas o cara está ali, ouvindo aquela caixinha, o cara gosta, e você tem que fazer o rádio ser agradável para quem está curtindo aquilo, tem que criar formas pra segurar o cara no rádio. Porque ele pode virar a chave e ir pro MP3 muito rápido, e é uma briga desleal, porque ele monta o playlist dele, ele escolhe o que quer ouvir.”

O fator escolha do ouvinte é, possivelmente, o que mais demanda preocupações tanto entre os donos das emissoras como entre os locutores. Como fica evidente a partir dos trechos colhidos, o ouvinte que está preocupado apenas como conteúdo musical pode facilmente encontra-lo na internet. Mesmo em um país como o Brasil, cujo acesso universalizado à internet com qualidade de conexão está um tanto quanto distante, a oferta desse tipo de conteúdo é uma realidade. Dessa forma, os meios digitais representam uma parcela da concorrência do rádio.

3. A RECONTEXTUALIZAÇÃO DIGITAL O ouvinte que está deixando de ouvir o rádio

analógico está também deixando de consumir o meio, ou está migrando para outras formas de acesso? A resposta para essa pergunta não é tão facilmente alcançada porque faltam mecanismos capazes de medir a audiência de forma individual. Os dados mais significativos que possuímos são de uma enquete realizada pelo GPR - Grupo dos Profissionais do Rádio, de 2009, que aponta que 82% das pessoas que responderam à pesquisa ouvem rádio via internet ou acessam as páginas das emissoras, e 42% ouvem na internet principalmente rádios que também existem no dial; desses, 83% procura ouvir o que está no ar, e 36% programação on demand. Apesar da pesquisa não oferecer grande valor estatístico, serve para balizar um pouco os possíveis usos do rádio hoje.

Esses dados foram debatido pelos autores em pesquisa concluída em 2011 [10]. Na ocasião, a análise indicou que as emissoras de rádio estavam se preparando para ofertar conteúdo na internet, de modo que alguns websites já ofereciam alguns serviços agregados, como promoções, acesso a informação das equipes, notas jornalísticas, streaming de músicas e playlists, etc. No entanto, a produção de conteúdo para web dessas empresas em muito pouco se diferenciava do que o internauta pode encontrar em outros lugares.

“[...] a diversificação de espaços de difusão de conteúdo radiofônico depende dos usos dados pelos usuários, e esses usos encontram correspondência com aqueles estabelecidos pelas empresas durante anos – por exemplo, a referência que a programação regular garante ao ouvinte-internauta. Até aqui, essa perspectiva é satisfeita pelo papel que os websites das emissoras analisadas assumiram. A falha pode ser apontada se considerarmos que essa nova configuração deve ser, para a empresa radiofônica, mais complexa do que realmente se apresenta; em termos de conteúdo, a semelhança e influência a partir dos portais da web obrigam as emissoras a uma reestruturação do conteúdo ofertado e sua ampliação em diversos sentidos. Por outro lado, o que observamos é, no máximo, o reaproveitamento do conteúdo ofertado na transmissão analógica. [11]

Assim, ao invés de ser um portal de conteúdo segmentado no público-alvo da emissora, os websites parecem muito mais com páginas comerciais para contato do ouvinte: fica a impressão de uma “obrigação” de oferecer esse tipo de acesso. No entanto, as emissoras de rádio não podem ignorar que o ouvinte reconfigurado como usuário busca novos serviços agregados, tanto em nos websites como em aparelhos portáteis como telefones e tablets. Por enquanto, a principal oferta neste último é meramente um canal para ouvir a emissora e algum tipo de interação, muitas vezes a partir do redirecionamento para o perfil da emissora em redes sociais. Não quer dizer que o ouvinte esteja substituindo formas de consumir rádio, e sim que ele está buscando novos serviços para serem agregados àqueles que já existem.

Isso não elimina, no entanto, que o hábito de ouvir rádio é algo enraizado socialmente, estabelecido a partir do uso atribuído historicamente ao veículo, como afirma Miège [12]. Sandra Groth, locutora de longa data, lembra que “pela internet se acessa rádio do mundo inteiro, mas o rádio é muito local. O rádio é vivenciar o dia a dia da cidade”. Daí que o hábito de ouvir rádio se expande até mesmo para as outras formas de acessar conteúdo, seja o podcast ou a webrádio. Duas observações feitas por locutores distintos apontam para essa constatação: em primeiro, PH Dragani opina que “o ouvinte gosta de ser surpreendido; eu gosto de ser surpreendido e gosto de surpreender, e talvez o hábito seja o de ouvir rádio e não o de ouvir sempre as mesmas coisas no mesmo horário”; em segundo, Milton Jung, um dos mais influentes âncoras do jornalismo radiofônico atualmente, analisa que a internet seria anteriormente como um cardápio radiofônico, em que “a pessoa ia escolher o comentarista que ela ia ouvir, na hora que ela quisesse, e da emissora que ela quisesse, porque ela não ia ficar refém de um programador.” Hoje, é diferente: estar em diferentes espaços significa, para a emissora de rádio, oferecer mecanismos para o ouvinte “consumir a sua marca. Mais que a ideia do cardápio”. Ou seja: o rádio se torna uma marca central

Page 58: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

para diferentes produtos ofertados em ambientes midiáticos.

Segundo Andrew Dubber, “[...] o “rádio” contemporâneo é digital praticamente da mesma maneira que o rádio do século XX era “eletrônico”. Ou seja, ele não apenas usou aquele “toque” particular de tecnologia mas também seguiu convenções e práticas inscritas no ambiente midiático em que a referida prática discursiva aconteceu”. [13]

Nesse sentido, Dubber propõe pensar o rádio como uma prática discursiva multifacetada à qual se acrescentam novas potencialidades. Ao considerarmos a amplitude deste debate, fica patente que as emissoras FM paulistana estão apenas iniciando esse processo de reconfiguração, distantes dessa configuração proposta.

No cenário atual e real, são as redes sociais que vêm possibilitando algumas mudanças mais concretas nos paradigmas de contato dos ouvintes com as emissoras de rádio, até mesmo na oferta de conteúdo. A anteriormente limitada participação por telefone somou-se, primeiro, a trocas mais imediatas como SMS e e-mail. Agora, a velocidade de troca via Facebook, Twitter – ou outra rede que se torne relevante – deve ser levada em conta. Por outro lado, essa interferência do ouvinte ganha mais força quando intermediada por alguém com personalidade, como o locutor. Nesse sentido, não é apenas a emissora como um todo que vai para as redes sociais, mas também o apresentador que queira ser reconhecido como referência para o ouvinte.

3.2 O apresentador de rádio nas redes sociais A presença do ouvinte interferindo na programação

passa a ser mediada pelo locutor. Se em um primeiro momento essas ferramentas parecem distanciar os ouvintes da emissora, criam-se novos laços entre eles e os locutores. Milton Jung constata, por exemplo que a interlocução não é com a emissora de rádio, “é com a pessoa; é com o apresentador... esse contato direto se abriu com o e-mail muito mais do que com as formas que tínhamos antes, que eram o telefone e a carta”. Cadu Previero afirma:

“[O ouvinte] quer pedir uma música, ele não vai ligar e esperar o telefone. Legal, funciona o telefone também, funciona o site... enfim. Mas é tão forte isso, que o ouvinte criou um elo direto com o locutor. Então o locutor não é aquela coisa mais distante, o locutor é muito próximo deles. Eles têm uma resposta em tempo real de você que está no estúdio naquele momento”.

O imediatismo da resposta é aproveitado em programas como, por exemplo, o conduzido por Laerte Gouveia já há mais de quatro anos. O programa Trans.com entra em contato com o ouvinte por meio de SMS, Twitter, Facebook e telefone para segurar horas de conversa ao vivo, praticamente sem músicas, diariamente. “essa foi uma forma de associar a internet, a interatividade, com o rádio, e de buscar um público que não está ligado em rádio.”.

Marco Antônio lembra que tudo mudou, que paradigmas – como o da localização – foram quebrados, o que possibilita que a emissora tenha alcance muito maior em termos de público, impactando na programação que passa a ser direcionada a uma comunidade dispersa de pessoas.

Mesmo locutores mais tradicionais, como Sandra Groth, reconhecem a importância das redes sociais na ampliação desse contato locutor-ouvinte. Para ela, a internet serve principalmente como convite para o ouvinte ligar e interagir ao vivo, complementando alguma informação disponível na outra plataforma.

A ampliação dessa esfera de comunicação transforma o locutor em um elemento mais presente no cotidiano do ouvinte. Dá ao locutor a possibilidade de feedback sobre seu trabalho, ao mesmo tempo em que permite apontar seus próprios pontos de vista. As redes sociais estendem a função do profissional para além do programa de rádio, possibilitando que ele seja conhecido e reconhecido fora do seu horário na emissora. PH anota que o locutor, hoje, “tem uma resposta mais consistente daquilo que está fazendo”, ao mesmo tempo em que consegue dar uma resposta imediata ao ouvinte. Se considerarmos que o rádio é feito especialmente desse contato íntimo com quem está ouvindo a programação, alguns locutores acreditam que há uma revitalização do rádio por conta dessas ferramentas digitais, como afirma Cadu Previero:

“Eu acho que está mais vivo do que nunca porque as redes sociais são prova disso. Eles estão interagindo 24 horas, pedindo música 24 horas, comentando, tornando a rádio cada vez mais viva e a gente que está no estúdio, no ar ali, é um porta-voz disso tudo”

Mais importante que o contato com o ouvinte, no entanto, as redes sociais permitem que o locutor conheça o seu público para direcionar melhor o seu trabalho. Como afirma Roberto Hais,

“se o cara quer construir um vínculo com o ouvinte, ele precisa fazer parte das redes sociais, precisa usar as redes sociais ao seu favor... O Facebook dá tudo pra você: quem são os caras que curtem as páginas, qual o perfil de idade, está tudo ali, só não vê quem não quer, e [os locutores] estão muito preguiçosos hoje”.

Em resumo, é possível afirmar que a boa utilização das redes sociais pelos locutores permite um trabalho mais próximo da audiência. O momento, então, sugere um resgate da intimidade entre o apresentador e o ouvinte, com a diferença que, agora, está baseada tanto na voz como no seu perfil público na web. No entanto, o que ocorre internamente às emissoras é muitas vezes o contrário. Na opinião dos locutores ouvidos nesta pesquisa, são dois os motivos principais: a falta de preparo de uma nova geração de apresentadores e a cegueira de diretores artísticos, que decidem não apostar em mudanças em nome de uma economia tola. O que se verifica historicamente é uma perda de autonomia dos locutores, criada tanto

58 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Page 59: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 59

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

pelo perfil mais musical das emissoras, com a redução de investimentos em formatos radiofônicos mais complexos, como pela transferência das negociações com o mercado fonográfico para a diretoria das rádios. Este, aliás, é um tema que ainda precisa ser debatido em profundidade e que foge levemente do escopo deste artigo; o que se pode adiantar é a perda do poder de influenciar a decisão do consumo musical, o que outrora chegou a representar uma parte da renda do locutor. Hoje, o playlist é praticamente todo da emissora, e o locutor apenas reproduz as músicas programadas pela direção artística, sem qualquer poder de decisão.

CONSIDERAÇÕES FINAIS

As emissoras de rádio precisam ativar ferramentas que facilitem o contato com o ouvinte, e que ofereçam material exclusivo a partir de outras plataformas, aproveitando ao máximo seus recursos. Trata-se, como afirmamos, da reconfiguração pelos meios digitais, em que o rádio se torna uma instituição, uma marca, um centro de referência de conteúdo. Sua presença em uma era digital implica, necessariamente, repensar seu posicionamento em uma fase caracterizada pela multiplicidade de oferta, como apontado por Brittos e por Ferraretto [14]. Mariano Cebriá Herreros, ao analisar as novas potencialidades oferecidas pelo ciberrádio (forma como o autor chama a rádio na web), propõe caminhos e resultados dessa configuração:

“No desenho da web aparecem integrados a emissão sonora, o conjunto de informações paralelas e as diversas modalidades de acesso, interatividade, hipermidialidade e navegação... Já não é só uma emissora, e sim algo mais, uma web que tende a ser convertida em multimídia.” [15]

Para o autor, isso significa também a possibilidade de perda do controle total da programação por parte da emissora, colocando em evidência o papel de outros atores, como o ouvinte:

“A ciberradio supõe uma mudança radical nos interesses das emissoras. Estas perdem o papel hegemônico de controle sobre o processo, e talvez este seja o motivo pelo qual a ciberradio propriamente dita esteja sendo implantada de forma tão lenta. [16]

Todavia, em virtude das características locais que o rádio FM assume, bem como sua importância em negociações de identidade, sugerimos que essas mudanças passam primeiro pelo apresentador de rádio, a voz da empresa. Como afirma Menezes em um belo estudo sobre os elementos de articulação entre os indivíduos de uma cidade,

“[...] os locutores das emissoras de rádio estão continuamente rememorando efemérides, atualizando fatos antigos, comentando narrativas do cotidiano, realizando rituais que remetem ao tempo mítico, transmitindo a sensação de que estamos ‘localizados’ em determinado ‘lugar’ e em determinado ‘tempo’.” [17]

A importância da voz na vinculação entre pessoas, da interação ouvinte-locutor-emissora, nos parece ser uma das características marcantes da radiodifusão que se prolongam atualmente. Esse é um debate que permeou textos de outros autores, como Balsebre:

“A palavra radiofônica não é somente a palavra através do rádio [...] ainda que transmita a linguagem natural da comunicação interpessoal, é palavra imaginada, fonte evocadora de uma experiência sensorial mais complexa” [18]

Essa experiência sensorial, garantida pela resposta íntima, se amplifica com a agilidade do feedback digital. O locutor deve ressignificar sua personalidade perante o ouvinte por meio de uma atividade mais consistente das ferramentas da web.

No entanto, essa nova centralidade do papel do locutor não é uma tarefa fácil: mesmo em se tratando de um profissional preparado, que expande seu universo de ação para as redes sociais, que tem presença e personalidade em seu horário na programação, a locução radiofônica ainda é, hoje, uma profissão relativamente desvalorizada. A maior parte dos entrevistados afirma que viver de rádio é difícil, e eles precisam complementar o salário com outras atividades. Para muitos locutores, como Cadu Previero e PH Dragani, é um segundo emprego movido pela paixão: “eu acho que é paixão mesmo”, “a locução de FM te permite trabalhar em outras coisas”. Laerte Gouveia compartilha a mesma opinião: “no rádio você tem que ser muito apaixonado [...] você nasce locutor radialista... eu gosto do rádio, é um amor incondicional”.

NOTAS [1] “The Radio Conference: A Transnational Forum”, realizado

entre 9 e 12 de julho de 2013 na Universidade de Bedfordshire, Luton, Inglaterra.

[2] Professor de Rádio e Estudos de Música Popular na Universidade de Birmingham City, Inglaterra. Na ocasião do Congresso, apresentou uma pesquisa intitulada “A new age for radio: understanding radio's present from radio's past”.

[3] Os dados preliminares da pesquisa foram apresentados também no mencionado congresso pelo autor Luís Antonio Santos, Professor do Departamento de Ciências da Comunicação da Universidade do Minho, Portugal.

[4] DEL BIANCO, N.R. (org.). O rádio brasileiro na era da convergência. São Paulo: Intercom, 2012

[5] Os dados foram apresentados na publicação Mídia Dados Brasil 2013, do Grupo de Mídia de São Paulo. Disponível em http://midiadadosrdp.digitalpages.com.br/html/reader/119/15659, acessado em 30/ago/2013.

[6] Os dados foram publicados na edição de 27 de maio de 2013 da revista Meio&Mensagem.

[7] A ideia de “recontextualização” é usada pelo autor Andrew Dubber em artigo publicado na revista Significações, do PPG-MPA da ECA/USP. Para o autor, a ideia de impacto dos meios digitais parece equivocada ao sugerir deformações e mudanças, quando o que ocorre é, na verdade, muito mais próximo de adaptações. Cf. DUBBER, A.. Repensando o rádio na era digital. Significação: revista de cultura audiovisual. Revista do Programa de Pós-Graduação em

Page 60: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

60 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Meios e Processos Audiovisuais da ECA/USP. São Paulo, Ano 40, nº 39, pp. 24-43, jan-jun/2013

[8] Cf. FERRARETTO, L.A.. O hábito de escuta: pistas para a compreensão das alterações nas formas do ouvir radiofônico. GHREBH – Revista de Comunicação Cultura e Teoria da Mídia. São Paulo, Número 9. Março/2007. Disponível eletronicamente em http://www.cisc.org.br/revista/ghrebh9/artigo.php?dir=artigos&id=Ferraretto

[9] Cf. KISCHINHEVSKY, M.. O rádio sem onda: convergência digital e novos desafios na radiodifusão. Rio de Janeiro: e-papers, 2007, p.35

[10] GAMBADO, D.. Rádio e tecnologias: os novos espaços e caminhos possíveis do meio sonoro. Dissertação de mestrado. São Paulo: PPGMPA ECA/USP, 2011, pp. 121-122

[11] Id.ibid, pp123-124

[12] O teórico francês Bernard Miège identifica diferentes processos sociais articulados a partir das novas tecnologias de informação e comunicação. Entre eles, a ampliação do domínio midiático, em que os usuários esperam que os novos meios se diferenciem dos anteriores, sem deixar de lado práticas enraizadas socialmente. Cf. MIÈGE, Bernard. A sociedade tecida pela comunicação: técnicas da informação e da comunicação entre inovação técnica e enraizamento social. São Paulo: Paulus, 2009, pp. 109-130

[13] Dubber, op.cit, p.35

[14] A fase da multiplicade de oferta significa, do ponto de vista da empresa de comunicação, maior concorrência em diferentes frentes, e maior necessidade de produção de conteúdo. Ao

memso tempo, reconfigura o trabalho dos profissionais, que são levados a acumular funções. O cenário pode possibilitar a reconfiguração das empresas e nova importância social dos meios, ou mesmo caminhar em outra direção, a de concentração maior de mercados. Cf. BRITTOS, V.C.. O rádio brasileiro na Fase da Multiplicidade da Oferta. Verso & Reverso, São Leopoldo, n. 35, pp. 31-54, jul./ago. 2002; e cf. FERRARETTO, L.A.. Alterações no modelo comunicacional radiofônico: perspectivas de conteúdo em um cenário de convergência tecnológica e multiplicidade da oferta. Em: FERRARETTO, L.A.; KLÖCKNER, L. (orgs). E o rádio? Novos horizontes midiáticos. Porto Alegre: EDIPUCRS, 2010, pp. 539-556

[15] Tradução livre para "Junto al diseño de la web aparece integrado el de la emisión sonora, el conjunto de informaciones paralelas y las diversas modalidades de acceso, interactividad, hipermedialidad y navegación... Ya no es una emisora sino algo más, una web que tiende a convertirse en multimedia." HERREROS, M. C.. La radio en internet: de lo ciberradio a las redes sociales y la radio móvil. Buenos Aires: La Crujia, 2008, p.58

[16] Tradução livre para "La ciberradio supone un cambio radical en los intereses de las emisoras. Pierden su papel hegemónico de control sobre el proceso. Tal vez es esta la razón profunda por la que a ciberradio propiamente dicha está implantándose con tanta lentitud.". HERREROS, op.cit, p.110

[17] MENEZES, J. E. O.. Rádio e cidade: vínculos sonoros. São Paulo: Annablume, 2007, p.69

[18] BALSEBRE, A.. El lenguaje radiofónico. Madri: Ediciones Cátedra, 1994, p.35

Page 61: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 61

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Modelo de análise da audiência baseado no contexto

Valdecir [email protected]

Marcelo [email protected]

Page 62: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

62 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

MODELO DE ANÁLISE DA AUDIÊNCIA BASEADO NO CONTEXTO

Valdecir Becker 1, Marcelo Zuffo 2

1 Lavid – Laboratório de Aplicações de Vídeo Digital, Centro de Informática, UFPB, [email protected] 2 LSI – Laboratório de Sistemas Integráveis, Escola Politécnica, USP, [email protected]

Resumo: As complexas relações e mediações entre representações mentais e os consequentes comportamentos são subestimadas nos modelos tradicionais de medição da audiência. Este artigo propõe um novo modelo teórico, que incorpora a base da mediação atual, e expande a análise buscando as origens da necessidade e da motivação da atividade ver TV. Palavras chave: medição da audiência, teoria da atividade, contexto.

1. INTRODUÇÃO

As técnicas de medição de audiência se atem a obter dados sobre a exposição da população a um determinado canal ou programa. “Elas não dizem nada sobre os efeitos da exposição e nem explicam as motivações que levam as pessoas a escutar ou assistir” [1]. Os autores explicam que um arcabouço para analisar os dados coletados deve possibilitar a compreensão da complexidade sobre como as pessoas usam a mídia televisão. “Se nós soubermos o que determina a exposição à mídia, se conseguirmos prever padrões de uso que podem emergir sobre determinadas circunstâncias, então teremos um meio de interpretar esses números”.

Essa tarefa não é simples. Os dois dados mais usados pelo mercado brasileiro são: o total da audiência e a participação. Esses dados são completados com três perfis de audiência usados pelo Ibope: sexo, idade e classe social. Informações mais detalhadas sobre a segmentação da audiência são ignoradas pela medição. Para publicitários, hábitos de consumo, gostos, hábitos, estilos de vida e uma série de outras variáveis são muito mais importantes para o planejamento de uma campanha do que simples informações sobre a composição média da idade e do sexo da audiência esperada [1].

Este artigo apresenta um novo modelo teórico para subsidiar as pesquisas em audiência e projetar medições mais focadas nas necessidades dos anunciantes. A partir de uma análise detalhada do modelo teórico predominante atualmente, propõe a introdução do contexto, através da teoria da atividade, nos estudos e pesquisas de audiência.

2. Modelo teórico baseado na exposição

Um dos modelos mais aceitos em teoria da comunicação é baseado na exposição da audiência à televisão. Autores consideram a exposição como uma espécie de interface entre a audiência e o conteúdo da

mídia [1]. Já a medição da audiência permite identificar como essa interface é moldada. Para tanto, duas questões são relevantes: fatores da audiência e fatores da mídia. Ambos podem ser subdivididos em níveis estruturais, com uma análise macro da população, e individuais, onde é considerado um nível micro, com fatores descrevendo as pessoas e a residência.

2.1 Fatores da audiência

Características estruturais da audiência A primeira característica estrutural que ajuda a

moldar a exposição é o tamanho e localização da audiência potencial. Em alguns casos, a audiência potencial é facilmente determinada, bastando conhecer o número de pessoas que vivem sob o alcance do sinal da TV. No entanto, as informações de cobertura do sinal não são suficientes para projetar investimentos publicitários ou fazer alterações na programação. Pegando como exemplo a implantação da TV digital, a cidade de São Paulo tem praticamente 100% de cobertura de sinal, o que não significa que todas as pessoas tenham adquirido receptor digital capaz de receber esse sinal. Ou seja, a audiência potencial da TV digital está limitada aqueles que adquiriam o receptor e que estão dentro do raio de cobertura do sinal.

Para evitar esse tipo de projeção equivocada, tradicionalmente as empresas que auferem dados sobre a exposição segmentam a audiência potencial em grupos menores, associando dados subjetivos como ocupação, educação e idade média das pessoas que assistem TV no ponto de medição. Nos EUA, um item importante medido pelo Instituto Nielsen são os imigrantes de língua espanhola, que têm hábitos diferentes daqueles dos estadunidenses.

A segunda característica estrutural determinante para a exposição à mídia é a audiência disponível. Enquanto que a audiência potencial gera limites físicos para o total projetado da audiência, as rotinas diárias das pessoas impõem limites de disponibilidade para assistir TV. Trata-se de um limite temporal, que mostra quantas pessoas poderiam estar expostas ao meio em um determinado momento. Geralmente, a audiência disponível é definida como o número de pessoas usando o meio em determinado momento, podendo variar de acordo com a época do ano, dia da semana e horário. Os níveis de HUT ( do inglês Households Using Television, que representa a quantidade de casas assistindo televisão em um dado momento) são mais altos no inverno, final de semana e a noite.

Page 63: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 63

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

2

No Brasil dois fatores que influenciam consideravelmente são o horário de verão e propagandas eleitorais. No entanto, atualmente não existem pesquisas regulares sobre a composição da audiência disponível [1].

Características individuais da audiência Do ponto de vista micro, o maior impacto na

exposição é originado pelas preferências pessoais das pessoas. É neste ponto que reside a maior dificuldade em explicar e analisar os índices de audiência. Hábitos, costumes, gostos, e demais preferências podem mudar com o passar do tempo ou simplesmente não ter nenhum padrão mensurável [1].

O segundo ponto é a audiência em grupo, onde a escolha da programação normalmente é feita por líderes (entre amigos) ou chefes (família), podendo gerar atritos. Dificilmente a opinião de todos será a mesma referente à programação disponível. Por falar em programação disponível, o terceiro e último item que interfere sob a ótica micro é a consciência sobre a programação que pode ser sintonizada. Pessoas se acostumam a ver determinada programação e não buscam mais informações sobre outras opções, limitando ou mesmo acabando com as escolhas.

2.2 Fatores da mídia

Características estruturais da mídia A primeira característica estrutural está relacionada

à cobertura. Ou seja, é ela que vai definir se uma pessoa está apta ou não para sintonizar determinado canal. Além disso, o horário da programação também interfere nas escolhas. Programas transmitidos em horários onde a audiência não está disponível, como nas madrugadas ou horários de trabalho, dificultam a obtenção de bons índices. Além disso, uma pessoa pode ter interesse em dois programas que estão passando no mesmo horário, em canais diferentes. Nesse caso, por imposição da grade de programação, ela terá que escolher um dos dois para assistir.

Ambientes individuais da mídia A cobertura e a grade de programação estão fora

do controle dos telespectadores. No entanto, novas tecnologias permitem interferir um pouco nesse ambiente, aceitando audiências fora do tempo de transmissão (time-shift) e oferecidos por outros meios, como a internet.

Dessa forma, a primeira consideração sobre este ambiente se refere às tecnologias que o telespectador possui. Acesso à internet, dispositivos de acesso móvel, gravadores digitais, entre outros, podem determinar uma exposição diferente àquela esperada pela emissora. Efeito semelhante aconteceu com a introdução do controle remoto, que incentivou o zapping, reduzindo a exposição aos intervalos comerciais, e consequentemente, às chamadas. Atualmente, tecnologias digitais de gravação permitem que os intervalos comerciais sejam pulados, aumentando a importância do apelo dos comerciais,

que começou a ser questionado com a difusão dos videocassetes.

Além disso, a disseminação de receptores HDTV tende a fazer com que os telespectadores prefiram programas gerados nesta resolução. Isso reduz o leque de opções e de escolhas. O mesmo ocorre com TVs conectadas à internet, que oferecem opções adicionais de conteúdos, provenientes de portais de internet e de sites de compartilhamento de vídeos gerados pelos usuários.

Outro fator determinante é o acesso a serviços de TV por assinatura e outras formas de lazer e de informação, como revistas, jornais e livros. São tecnologias e serviços que competem pelo tempo disponível das pessoas. Enquanto uma pessoa está lendo ou navegando, a atenção não está totalmente voltada à TV, mesmo que ela esteja ligada. Opções de programas em pay per view, ao vivo ou lançados recentemente, tendem a ser mais atrativos, despertando interesse maior do que conteúdos e grades com programação gravada e mais antiga.

O Instituto Nielsen divulgou um estudo sobre o comportamento dos telespectadores nos EUA em 2010, onde 60% deles usam a internet enquanto assistem TV. Na verdade, eles gastam, em média, três horas e meia por mês fazendo as duas atividades simultaneamente; um aumento de 35% em relação ao ano anterior. Muitos telespectadores enviam mensagens de texto pelo celular ou postam em redes sociais, como Twitter, enquanto estão vendo a programação. Como exemplo, durante o MTV Video Music Awards, em setembro, 2,3 milhões de tweets se referiam a artistas recebendo prêmios [2].

Finalmente, na TV por assinatura, um dado relevante está no repertório de canais favoritos criado pelos assinantes. Cada telespectador tem uma seleção de canais mais assistidos, que varia conforme o número de canais disponível. Quanto maior a disponibilidade, maior a lista de canais favoritos. Esse repertório limita o zapping e o acesso a programas de canais fora da lista.

O acesso a tecnologias e outros serviços de laser e informação, como TV por assinatura, jornais, revistas e internet está diretamente relacionado ao poder aquisitivo da população. A primeira vista, pode-se concluir que pessoas com maior poder aquisitivo tendem a ver menos televisão. No entanto, essa relação não fica clara nos índices de audiência.

Sintetizando o raciocínio, a Figura 1 apresenta o modelo descrito pelos autores [1].

3. Problemas e limitações do modelo

Este modelo, baseado na exposição, guia as medições de audiência atualmente. No entanto, os próprios autores reconhecem que o modelo é limitado, pois “define a exposição como resultado, mas não as causas, os fatores” [1]. Além disso, há uma contradição quando os autores apontam a importância em conhecer as motivações que movem a audiência, mas não indicam como identificá-las. O modelo não

Page 64: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

64 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

compreende o que gera interesse no entretenimento e demanda na informação.

Figura 1: Modelo baseado na exposição [1].

O modelo falha ao simplesmente apontar fatores

estruturais e individuais que podem interferir na exposição. A partir das hipóteses levantadas, não é possível criar relações de causa e efeito sobre os aspectos individuais. Por exemplo, a disponibilidade afeta as opções de escolha, mas não guia a audiência. Se por um lado, canais indisponíveis não podem ser sintonizados, por outro, a presença deles não significa que sejam vistos. No Brasil os canais mais assistidos na TV paga são os abertos. Ou seja, o oferecimento de um leque maior de escolhas não repercute diretamente em alterações significativas nos índices de audiência.

A localização é mencionada superficialmente, mas sem entrar no mérito das necessidades comerciais e publicitárias de dirigir uma mensagem a um público específico, delimitado geograficamente. Essa localização fica mais importante com a recepção móvel e portátil, onde o movimento pode afetar os interesses sobre a programação. Pessoas em trânsito podem ter interesse em programas sobre situação das ruas; se estiverem dentro de um metrô ou ônibus o interesse pode estar voltado para programas de variedades ou novelas, que ajudem a passar o tempo rapidamente.

Finalmente, se compararmos a previsão deste modelo com as técnicas e análises utilizadas, podemos perceber que os problemas são ainda maiores. Há um espaço grande entre o que propõe o modelo e o que é praticado no mercado. Há modelos teóricos não compreendidos pelas análises, e métodos não explicados teoricamente. A forma como os dados do Ibope são utilizados pelas agências de publicidade e pelos diretores de programação das emissoras não consta nos livros. O que é considerado importante nesta análise é mantido em sigilo dentro das empresas, justificado muitas vezes como feeling do publicitário ou do diretor.

4 Modelo baseado no contexto

O objetivo maior da pesquisa de audiência é identificar o tamanho, visando estabelecer preços. A composição fica em segundo plano. Já a motivação é descartada completamente. Hoje, o simples fato da TV estar ligada resulta em índices de audiência. Ou seja, a pessoa que chega em casa e liga a TV simplesmente para evitar o silêncio tem o mesmo peso nos índices do que o telespectador assíduo, que não perde sequer um intervalo comercial durante a novela.

Além disso, telespectadores engajados na audiência, que comentam sobre o conteúdo e trazem mais pessoas para a programação, não são identificados. “Nós deveríamos perguntar não o que a mídia faz com as pessoas, mas o que as pessoas fazem com a mídia” [3]. Poderíamos incluir nesta sugestão “como elas fazem”. A forma como as pessoas assistem televisão altera a percepção de valor do conteúdo. Sobre esse aspecto, ver TV em casa, na sala de estar, no quarto ou no ônibus desperta níveis de interesse diferentes em cada situação. Conhecer e quantificar essa diferença é importante para anunciantes e diretores de programação.

4.1 A TV como mediadora

A televisão conta histórias. Ao contar histórias, ela dialoga, conversa com as pessoas. Toda programação televisiva é baseada no diálogo com a audiência, predominando uma busca por uma aproximação e identificação da vida retratada na tela com o quotidiano das pessoas. A tecnologia, seja o aparelho, o controle remoto ou o computador utilizado para ver vídeos, simplesmente media essas histórias, fazendo a ponte entre o que o diretor quer contar e como o telespectador percebe e entende o enredo.

Os telejornais são organizados para que despertem a atenção no início, com manchetes de notícias chocantes, seguidas de informações mais suaves. As notícias são formatadas a partir de uma história central, onde pessoas afetadas desempenham o papel de personagens envoltos na situação. Temas distantes da compreensão da média das pessoas, como problemas no oriente médio ou economia norteamericana, são tratados como simples relações de personagens, afetados por uma bomba ou pela perda da casa, algo comum de ser compreendido por qualquer pessoa.

Se o foco da notícia for local, como um acidente de trânsito ou o resultado de algum jogo de futebol, os personagens são apresentados como velhos conhecidos. A emoção predomina, com pessoas chorando, tristes ou comemorando alegremente. Afinal, todos conhecem alguém envolvido em um acidente ou tem familiaridade com a sensação de vitória ou de derrota em uma competição esportiva.

O mesmo é válido para documentários e grandes reportagens, que partem de boas histórias para ancorar uma linha de raciocínio. Seja com temas naturais ou dramas sociais, a sequência narrativa

Fatores de Audiência

Estrutural Audiência Potencial Audiência Disponível

Individual Preferências

Configurações de Grupos Vs. Uso

Solitário Consciência das

Opções

Exposição Medições Brutas

Índices de Audiência Market Share

Circulação Acessos a websites

Vendas Totais Cumulativas

Cume Alcance

Frequência Audiência duplicada

Fatores de Mídia

Estrutural Cobertura Opções de Conteúdo Individual

Tecnologias possuídas

Assinaturas Repertórios

Desenvolvimento de tecnologias, programação e estratégias, a longo prazo

Desenvolvimento de gostos, expectativas e hábitos, a longo prazo

Page 65: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 65

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

4

busca envolver o raciocínio da audiência. São comuns mistérios, suspenses e promessas de realizações pessoais para encadear blocos e temas no mesmo programa.

No caso das telenovelas, filmes, programas de auditório ou reality shows, os próprios programas são estruturados de forma a contarem histórias. Uma história com desdobramentos mais rápidos, no caso do filme, e várias histórias entrelaçadas, no caso das telenovelas. Já programas de auditório e reality shows dividem os horários em quadros e atrações, onde histórias e competições de curta duração dão a dinâmica a partir de incentivos e direcionamentos do apresentador.

Inclusive programas religiosos de diferentes designações usam histórias para transmitir as mensagens. A partir de leituras bíblicas, bispos e pastores envolvem a audiência, seja ela presencial ou pela televisão, fazendo-a pensar sobre a própria vida em busca de salvação. Em casos mais extremos, são apresentados quadros onde, aparentemente, pessoas são curadas diante das câmeras.

Em síntese, uma boa programação de TV depende de boas histórias e da forma como elas são relacionadas com a audiência. Esse processo gera um envolvimento das pessoas com o tema apresentado e discutido pela televisão. O sucesso de um programa, representado pelos índices de audiência, depende desse envolvimento. Quanto mais a audiência acreditar na história, mais representativa ela será nos índices.

Essa dinâmica cria muito mais do que um passa tempo ou uma sensação de estar bem informado. Gera relações íntimas de confiança. As pessoas se sentem parte da programação, chegando inclusive a responder aos tradicionais “bom dia”, ou “boa noite”, dos apresentadores de telejornais.

As pessoas enxergam uma representação da realidade através da TV. Trata-se de uma representação justamente por ser mediada pela TV, com todos os elementos tecnológicos e pessoais que compõe a programação. Tomar contato com uma notícia pela TV é diferente de presenciar o fato ou ver algo acontecer pela janela.

A ponte, ou mediação, que a televisão faz entre a pessoa diante da tela com realidades distantes, inacessíveis para a média da audiência, cria uma experiência mental que desloca a percepção consciente. As pessoas deixam de pensar na própria vida para se envolverem nas histórias contadas na telinha. Esse deslocamento, e a imersão nas histórias, que não são exclusivos da televisão, geram a sensação de que o tempo passa mais rápido e que as informações são compreendidas facilmente.

Dessa forma, a TV media experiências. Ela é mediadora de dois mundos, onde o real, tanto da própria vida, quanto o apresentado na TV, se encontra com o imaginário, representado mentalmente. As pessoas criam ilusões, sonham, desenvolvem opiniões com base no que a TV, simbolicamente,

conta. Por isso, as pessoas assistem televisão. A estrutura organizacional da televisão dá suporte para que a mensagem, ou a história, tenha o efeito desejado.

4.2 A teoria da atividade como base da análise

Considerando a TV como mediadora, Becker e Zuffo desenvolveram um modelo teórico para análise do comportamento da audiência baseado na teoria da atividade, criada por Leontiev, a partir dos estudos de Vigotsky [4].

A teoria da atividade busca entender a unidade da consciência e a atividade. É uma teoria social da consciência humana, construindo consciência como o produto de uma interação individual com pessoas e artefatos num contexto de prática das atividades cotidianas. Para tanto, considera a atividade como a categoria mais básica. A análise da atividade abre a possibilidade de entender adequadamente tanto assuntos quanto objetos [5].

As atividades humanas, mesmo que realizadas individualmente, estão relacionadas com práticas estabelecidas histórica e coletivamente na sociedade. Uma atividade sempre responde a necessidades e é direcionada por motivações específicas. Dessa forma, uma atividade, que se baseia em uma necessidade ou uma motivação, desencadeia uma ação, que tem um objetivo. A ação demanda uma operação, inserida em um contexto de restrições e condições [4].

4.3 Funções psicológicas superiores

A noção de mediação foi inicialmente desenvolvida por Vigotsky, ao analisar a inserção do ser humano na natureza e sociedade, quando desenvolveu a abordagem histórico-cultural para definir a mente humana [6,7,8]. Para Vigotsky, a mente é dividida em funções psicológicas superiores e funções mentais naturais. As funções psicológicas superiores foram desenvolvidas pelos seres humanos a partir de ambientes sociais e culturais. Através delas o ser humano desenvolveu a habilidade de usar artefatos para interagir com o mundo. Esses artefatos são mediadores da mente com o mundo [8].

Portanto, Vigotsky criou a noção de mediação, que pode acontecer através de duas ferramentas: técnicas, como um martelo, que afeta algo, e psicológicas, como um mapa, que afeta outras pessoas ou a si mesmo. As ferramentas atingem a estrutura da atividade. Tanto o uso de um martelo para mudar a posição de um prego, quanto à identificação do melhor caminho no mapa, alteram a atividade. As ferramentas psicológicas transformam os processos mentais em atos instrumentais, mediados por significados desenvolvidos culturalmente.

Estendendo essa visão à teoria da atividade, a mediação pode ser psicológica ou física. Na mediação no plano mental o cérebro cria imagens que permitem relacionar o mundo real com o mundo psíquico. Já na

Page 66: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

66 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

mediação física, são utilizadas ferramentas, que geram mudanças, tanto no mundo real, quanto na percepção que os seres humanos têm dele.

Dessa forma, a mediação possui dois níveis, mas apenas para efeitos de análise. As mediações estão relacionadas e não podem ser definidas individualmente. A atividade perceber algo gera uma ação. Neste caso, estamos relacionando uma criação imagética, puramente mental. No entanto, ao gerar uma ação, ferramentas são necessárias. Se deslocarmos o ponto central da análise para o uso dessas ferramentas, estamos estabelecendo uma nova atividade, que possui um novo motivo, guiado por uma nova necessidade.

Para Vigotsky, a cultura e a sociedade não são elementos externos influenciando a mente, mas forças que produzem e moldam o ser humano. Ou seja, não é possível desassociar o desenvolvimento mental da percepção cultura e social que a pessoa cria. Ambas caminham juntas, compondo a mente, que só pode ser compreendida através de uma análise histórica e evolutiva dessa relação [8].

A mente humana está intrinsecamente relacionada com todo contexto da interação do ser humano com o mundo exterior. Alterações na mente refletem na percepção sobre o mundo e na forma como a interação acontece. Por outro lado, qualquer mudança no mundo altera a percepção que o ser humano tem dele. Isso inclui desde ações objetivas (comprar um carro), até emoções e sentimentos, como a sensação de bem estar ou felicidade.

A TV tem papel central na construção dessa mente. Na cultura brasileira a TV é o maior e mais importante meio de informação, consequentemente, de contato com o mundo distante. Como a mente é o resultado de uma relação complexa entre interno e externo, individual e coletivo, a TV ajuda o indivíduo a se posicionar no mundo, gerando informações e moldando relações.

Boa parte dos valores familiares e sociais é influenciada pela programação das TVs. Desde a infância, as crianças acompanham desenhos e programas infantis, que trabalham o desenvolvimento mental infantil a partir de elementos fantasiosos, que se misturam com a imaginação. O desenvolvimento das funções psicológicas superiores é facilmente impactado por mensagens subliminares presentes na programação.

4.4 Níveis de mediação

A TV media a percepção que as pessoas têm com uma realidade externa, longe do quotidiano delas. De certa forma, a TV faz a mediação e a inserção das pessoas na sociedade, ao trazer a realidade de outros locais, outras culturas e outros ambientes para dentro de casa. Essa relação diferente, que envolve e relaciona a tecnologia com a informação, demanda uma análise mais ampla, que vai muito além das tarefas realizadas durante o ato ver TV. O pensar sobre o conteúdo e o impacto dele no dia a dia, é tão,

ou mais importante, do que o comportamento da pessoa diante da televisão.

Portanto, a TV gera modelos mentais sobre sociedade, cultura e família, que vão muito além dos quatro elementos propostos por Engeström relativos ao aprendizado e uso de artefatos em ambientes laborais [9]1. Como Engeström focou a análise no uso da tecnologia, os impactos gerados na atividade são subestimados. Consequências da interpretação e visão pessoal sobre uma atividade, que geram um leque variado de opções para ação, não são compreendidos pelo elemento where to artifacts. Exemplificando, uma informação adquirida em um telejornal pode definir um comportamento. Uma notícia animadora sobre financiamento ou evolução da economia pode determinar a compra de um carro ou uma viagem de férias.

Neste caso, a unidade da análise não se restringe à interação da pessoa com a tecnologia, mas compreende também os objetos no mundo com os quais as pessoas interagem indiretamente usando tecnologia. No caso da TV, há uma interação com a informação (uma representação mental seguida de um julgamento ou análise de pertinência e importância), que gera uma ação (comprar o carro ou a viagem). Deste ponto de vista, é possível perceber porque tradicionalmente notícias relacionadas ao dia a dia das pessoas despertam mais interesse do que os fatos políticos ou econômicos de países distantes. A atividade demanda uma interação, ou seja, uma consequência. A crise na economia tem poucas consequências para a maioria da população, fazendo com que noticiários locais ou regionais sequer abordem o tema.

Dessa forma, a experiência ver TV só será totalmente passiva em casos onde a história não desperta nenhum interesse ou curiosidade. Por mais que a pessoa permaneça indiferente, há pensamentos relacionando as informações com experiência prévia da pessoa.

A única exceção ocorre enquanto a televisão não é objeto da atividade e nem objetivo da ação. No caso da televisão representar a operação, compondo uma atividade ter barulho, a atenção está deslocada. Neste caso, não são geradas imagens mentais sobre a programação, uma vez que o objeto da atividade é outro.

Nesse processo, há dois aspectos importantes de serem analisados: aspectos físicos, relacionados a 1 Estudando como as pessoas aprendem o uso de novas tecnologias, Engeström criou um modelo baseado em quatro elementos relativos ao aprendizado e uso dos artefatos: what, how, why, e where to artifacts. Os artefatos what são os artefatos propriamente ditos, com as limitações e condições inerentes a sua natureza. Já os artefatos how e why estão relacionados à formação das ações e dos objetivos. O artefato why é um modelo genérico sobre os princípios de funcionamento. Já o artefato how é um modelo específico, com detalhes de uso. Finalmente, o artefato where to refere-se à imagem mental do artefato, suas visões e mudanças que redefinem a atividade como um todo. Pode ser resumido como expectativa anterior ao uso do artefato. Mais detalhes sobre a aplicação desse modelo estão em [4,9].

Page 67: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 67

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

6

tecnologia, e psicológicos, relacionados à construção do imaginário e à sensação de envolvimento. Segundo a teoria da atividade, a relação desses dois aspectos, que em outros termos podem compor tanto a atividade quanto a ação ver TV, pode ser detalhada em uma atividade de comunicação humana que envolve sujeito, objeto, ferramenta e comunidade, dentro de um contexto social, mediado por tecnologias.

Os sujeitos são pessoas ou grupos de pessoas desenvolvendo a atividade ‘ver TV’. A comunidade é um grupo de pessoas que compartilha os mesmos objetivos. Os objetos são objetivos ou motivos que levam as pessoas a agirem. Neste caso, ver TV. As ferramentas são a TV e a programação, que mediam a atividade da comunicação, a nível físico e psicológico, respectivamente. Já o contexto social é o ambiente onde tanto as pessoas, quanto a TV, além da programação, estão inseridos, influenciando e sendo influenciados.

A atividade ‘ver TV’ só pode ser compreendida dentro deste contexto, onde todos esses fatores estão relacionados e analisados. Essa relação é apresentada na Figura 2.

Figura 2: Estrutura e relações da atividade ver TV.

Analisando os desdobramentos da teoria da

atividade na área da Interação Humano Computador, Kaptelinin concluiu que os “seres humanos usualmente usam computadores não porque querem interagir com eles, mas porque querem atingir um objetivo para além da situação 'dialogar' com o computador” [10].

De forma similar, podemos considerar que as pessoas assistem televisão com um determinado propósito, seja ele se informar, passar o tempo, ou simplesmente pela companhia e de acabar com o silêncio. Usar a TV vai além dos atos de ligar, trocar de canal ou desligar. Há um objetivo maior guiado por uma necessidade.

O próprio termo TV, ou televisão, confunde programação e tecnologia. Mentalmente as pessoas se programam para ver TV, pensando no conteúdo ou na programação. Ninguém pensaria na atividade ver TV como o ato de ficar olhando para uma tela de vidro projetando imagens sequencialmente e gerando a ilusão de continuidade. Neste caso, a mediação é mental, através das imagens criadas para identificar o conteúdo e relacioná-lo a experiências próprias, gerando a identidade com a história.

Por outro lado, as atividades ‘comprar uma TV’ ou ‘trocar a TV de lugar’ estão relacionadas à ferramenta

TV, ou seja, ao aparelho. Neste caso, a mediação é física, com alterações no mundo real. Apesar desta aparente separação, não é possível separar as duas atividades. A atividade ‘comprar uma TV’ está diretamente relacionada com o objetivo ver TV, que neste caso, ganha status de necessidade, guiando a compra ou o posicionamento do aparelho na sala.

4.5 A origem da necessidade

No plano psicológico, ou seja, em uma visão mais restrita, a atividade é a unidade da vida, mediada por uma imagem, cuja função é orientar o sujeito no mundo objetivo [6]. O objeto da atividade aparece de duas formas: primeiro, na sua existência independente, comandando a atividade do sujeito e, segundo, como a imagem mental do objeto, como produto de identificação do sujeito e de suas propriedades, que é efetuada apenas pela atividade do sujeito.

Ou seja, o objeto existe, independente da pessoa percebê-lo ou não. A atividade se concretiza quando um sujeito encontra esse objeto e o percebe, gerando uma imagem mental dele. Essa imagem mental e seus significados são definidos e formatados pela vivência pessoal, social e inserção cultural da pessoa.

O mesmo acontece com a televisão. Ela, como tecnologia e como programação, existe, independente da percepção que o indivíduo tenha. No entanto, a atividade ‘ver TV’ acontece no momento em que o sujeito encontra o objeto. O valor do conteúdo e as escolhas sobre a programação dependem dos interesses e gostos da pessoa. Essa visão pessoal é desenvolvida durante toda vida, influenciada pela família, por amigos, desejos de reconhecimento e valorização em grupo, necessidades profissionais, entre outros.

De acordo com Leontiev, as ações usualmente possuem várias motivações, sendo que duas ou mais atividades podem estar voltadas para a mesma ação. Ou seja, várias atividades podem ter o mesmo objetivo. No caso da atividade ver TV, a ação resultante pode ser olhar para a tela da TV. Outras atividades relacionadas podem ser passar o tempo, se informar, dividir um conteúdo, ter barulho em casa.

O ato ‘ver TV’ pode ser uma atividade, uma ação ou uma operação. No caso da necessidade ser ‘se informar’, a ação pode ser procurar um canal de notícias, e a operação, prestar atenção no noticiário. Já no caso da necessidade ser a companhia, com barulho em casa, a atividade se completa com o objeto TV. Neste caso a ação é ligar a TV, e a operação, acompanhar inconscientemente a programação, independente do programa que estiver passando. Enquanto isso, a pessoa faz outras coisas, como cozinhar ou limpar o quarto.

Neste caso, a necessidade define a atividade. O papel da televisão muda de acordo com a necessidade, impactando a ação e a operação. A representação mental, ou seja, a imagem mental dos objetos mostrados na tela da TV, tem significado a

TV/Conteúdo

Comunidade

Sociedade Pessoas

Page 68: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

68 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

partir da operação, incluindo as condições e restrições. No caso da atividade ver TV, a atenção está no conteúdo da programação, e consequentemente, as imagens mentais acompanham esse conteúdo. Já no caso da necessidade ‘ter barulho em casa’, a operação passa por outras atividades, como a cozinha ou a limpeza.

5. Novo foco da medição

A partir da visão de que a TV é a mediadora entre o pessoal e o acesso à informação e ao entretenimento, o centro da análise para a medição da audiência precisa ser deslocado um pouco. Além da exposição, os índices de audiência precisam contemplar interesse e engajamento.

Neste caso da televisão, acontecem várias mediações, desde a tecnológica, que define e limita a qualidade da imagem, até o repórter ou cinegrafista que define o que irá compor a notícia. Sob a ótica da teoria da atividade, são várias atividades intercaladas, impossíveis de serem separadas ou definidas individualmente.

Pode-se considerar a mediação em diferentes níveis, onde o mais básico gera uma atividade de ligar a TV, mediada pelo controle remoto, e o mais avançado, a percepção de valor na programação, mediada pelo próprio conteúdo dos programas, que em última análise, guia a atividade como um todo. O nível mais avançado inclui a mediação psicológica, com a construção de imagens mentais representando as histórias apresentadas na TV.

Do ponto de vista tecnológico, a atividade mais básica é mediada pelo controle remoto. Em outras palavras, o controle remoto é a ferramenta que media a pessoa e a TV, facilitando a escolha da programação. A atividade trocar de canal usando o controle remoto é mais cômoda do que levantar e mudar o canal no painel da TV.

Considerando o modelo baseado na exposição, sua aplicação e limitação, e agregando a reflexão acima, são três os fatores que interferem na medição e análise da audiência. Neste novo modelo, o que importa é o comportamento da pessoa, mas este está limitado pelos fatores de mídia e inserido dentro da sociedade. Dessa forma, como tecnologia, a TV media ambos: o individual e o social, limitado pelos fatores de mídia.

Tem-se a seguir uma análise mais detalhada destes três fatores.

5.1 Fatores de mídia e de emissoras

Retomando o modelo de [1], os fatores estruturais, tanto de audiência quanto de mídia, compõem as principais limitações para a exposição da audiência à mídia. Dessa forma, a cobertura, as opções de conteúdo, a audiência potencial e a audiência disponível mantêm a importância.

Além destes fatores, técnicas de medição interferem no resultado da medição e podem induzir as análises dos dados. As técnicas de medição não

interferem na exposição, mas limitam ou expandem o alcance dos dados gerados. Ou seja, a própria medição, com metodologias de coleta de dados e disponibilização das informações, limita as análises. A partir dos dados coletados, são gerados índices e pesquisas, que dependem das informações existentes. Não é possível analisar objetivamente um dado que não está disponível. Por exemplo, na metodologia do Ibope é impossível determinar a composição da audiência em relação ao uso simultâneo de tecnologias, pelo simples fato dessa informação não ser coletada.

5.2 Fatores sociais e culturais

A televisão tem um papel importante na inserção social das pessoas. Além das histórias representadas na tela, que geram assuntos e discussões, a programação incentiva e desenvolve gostos, estilos de vida, de comportamento e de moda. Dependendo dos referenciais pessoais e familiares, a pessoa segue rigorosamente estilos apresentados por personagens de programas televisivos.

Os relacionamentos são moldados a partir de valores que as pessoas têm em comum. A percepção do mundo e das relações passa pela valorização da vivência em grupo e em sociedade. As pessoas se inserem em grupos de interesse comum para compartilhar e vivenciar experiências.

Da mesma forma como a televisão gera assunto e determina, em certo nível, os temas das conversas entre grupos, posturas e argumentos são derivados de opiniões e posições de ídolos, seja no esporte ou na dramaturgia. A opinião de um comentarista esportivo é amplamente repercutida, positiva ou negativamente, dependendo das preferências clubísticas pessoais. Não dominar o assunto ou não ter opinião sobre o resultado do jogo, isola o indivíduo do grupo. O mesmo é válido para telenovelas, reality shows e programas de auditório, que despertam o interesse pelo enredo das histórias, tramas e ações dos personagens.

Antes das tecnologias digitais de comunicação, a TV monopolizava os diálogos. Com a internet e o acesso a conteúdos audiovisuais através dela, esse monopólio foi quebrado. Hoje há concorrência com outras fontes. No caso de séries de TV, que possuem janela de exibição brasileira diferente em relação aos Estados Unidos, os fãs baixam episódios e comentam, seja pessoalmente, ou em redes sociais, gerando debates que não fazem parte das grades de programação.

Neste aspecto a concorrência de conteúdos da internet ganha maior relevância em alguns círculos de amigos do que a programação televisiva. Descobrir um vídeo interessante na internet e repassar o mesmo para a lista de amigos pode gerar um reconhecimento maior do que dominar os temas de programas da TV. Ao aceitar que há uma grande variedade de conteúdos disponíveis, e que basta localizá-los, a dinâmica das conversas em grupo se altera, sendo

Page 69: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 69

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

8

gerida não mais pelo comportamento de um personagem da TV, mas pelo que um integrante do grupo considerou legal e conseguiu convencer os demais sobre isso.

Esse processo é acentuado com a oferta cada vez maior de TVs conectadas à internet e celulares com acesso a conteúdos audiovisuais. Acrescentando as redes de banda larga, temos os ingredientes de um meio alternativo à TV, de desenvolvimento das habilidades de inserção social.

Ao permitir o acesso à internet, a TV liberta a imaginação e a ação do usuário, ao contrário da televisão, que busca o monopólio da atenção. Lembrando que mudanças na tecnologia geram mudanças de uso e de percepção de valor, o que, consequentemente, afeta a atividade [9]. Dessa forma, uma pessoa com acesso a recursos digitais assiste TV e valoriza o conteúdo de uma forma totalmente diferente de outra pessoa com acesso apenas à TV analógica. Há uma retroalimentação, onde a pessoa vai alterando as expectativas e a forma de uso conforme aprende.

Isso é mais perceptível nas gerações mais novas. Ao incluírem tecnologias como celulares, computadores portáteis e inserção social através de redes sociais, a atividade ver TV deixa de ser exclusiva. O jovem usa todas as tecnologias acessíveis simultaneamente, sem comprometer a atividade principal, que pode ser estudar ou conversar com amigos on line. O uso simultâneo das tecnologias é meramente a ação necessária para gerar a operação.

A percepção que o jovem tem da tecnologia é diferente de uma pessoa adulta, que não conviveu a vida toda com o digital. A pessoa que aprendeu a usar uma tecnologia por necessidade faz um determinado tipo de uso, normalmente consciente. Ou seja, a tecnologia ainda é o objeto da atividade. Quando muito, representa a ação.

No caso de pessoas que foram educadas com tecnologias digitais, o uso é inconsciente, representando geralmente a operação. A pessoa quer enviar uma mensagem (necessidade), pensa e visualiza o texto (objeto), digita e anexa uma foto (ação), e espera o retorno. As rotinas para desenvolver a ação (pegar o celular, abrir nova mensagem, buscar as letras corretas e apertar o botão enviar) foram totalmente inconscientes.

Ou seja, o uso de várias tecnologias digitais a nível de operação da ação da atividade não compromete o desempenho, pelo contrário. Ao não precisar pensar sobre as rotinas, a pessoa ganha agilidade e eficiência na comunicação. Neste caso, a percepção de valor e de importância da comunicação se restringe à mensagem, não à tecnologia.

Apesar disso, a tecnologia tem valor no convívio, onde ela é tema de discussões e trocas de informações. A atividade conversar pode ter como foco, e objeto, as tecnologias envolvidas e que subsidiam a comunicação à distância. O tipo de

tecnologia e a forma de uso são influenciados por integrantes mais familiarizados com os recursos e limitações.

5.3 Fatores pessoais Os fatores pessoais que influenciam a atividade

‘ver TV’ são: tecnologias disponíveis, assinaturas, conhecimento da oferta, preferências, tomada de decisão, condições de uso, demanda e mobilidade/localização. Na sequência é feita uma análise detalhada de cada um destes fatores.

Tecnologias disponíveis

Há alguns anos, a experiência ‘ver TV’ estava restrita à sala de estar, onde ficava a TV, com lugar de destaque. A audiência era predominantemente coletiva. Com o passar do tempo e com o barateamento dos equipamentos, a presença de televisores nos quartos se acentuou, iniciando um processo de assistência individual.

Além disso, a internet, gravadores digitais, videogames, entre outros, podem ter dois impactos opostos na audiência. Se por um lado há concorrência pelo tempo disponível, por outro essas tecnologias podem completar a experiência, e consequentemente, a atividade, ver TV. O resgate na internet de programas perdidos, ou a gravação das atrações, mantém a audiência, mas não é contabilizada pelas medições.

As novas tecnologias de gravação não têm abordagem unânime entre os institutos de pesquisa. O Instituto Nielsen não considera o momento da gravação do programa para os índices de audiência, mesmo que tenha alguém assistindo. Já o Ibope considera os programas gravados dentro do item “outros”, com o mesmo peso de DVDs ou videogames.

Assinaturas

Assim como as tecnologias, serviços e assinaturas de jornais e revistas competem pelo tempo disponível das pessoas. Enquanto uma pessoa está lendo, a atenção não está totalmente voltada à TV, mesmo que ela esteja ligada. Dessa forma, o recebimento de materiais impressos pode afetar o tempo dedicado à televisão.

Conhecimento da oferta

A digitalização dos meios de comunicação aumenta a oferta quantitativa de conteúdos. A TV digital possui sinal mais robusto do que a analógica, o que leva o sinal para mais residências. Já a TV por assinatura e a internet tornam as ofertas praticamente ilimitadas. Por um lado, o telespectador precisa conhecer os canais e a programação oferecida pela televisão para poder usufruir plenamente de todos os conteúdos. Por outro lado, quanto maior o conhecimento sobre a oferta de conteúdos na internet, maior a possibilidade de reduzir o tempo diante da TV.

Ou seja, a análise da oferta de conteúdos perpassa a radiodifusão. O recente lançamento de TVs

Page 70: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

70 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

conectadas à internet traz novos desafios para a programação da TV, com maior concorrência pelo tempo disponível.

Preferências

As preferências em relação à programação da TV são desenvolvidas e alteradas durante toda a vida. Neste caso há interferências familiares, sociais e culturais, que contribuem para estabelecer gostos e expectativas sobre a programação. No entanto, a necessidade de acompanhar preferências impostas socialmente não exclui gostos pessoais que vão na contramão do que os amigos induzem. Neste caso, as escolhas podem ser opostas quando definidas em grupo ou isoladamente. A possibilidade de individualizar a audiência permite que as preferências pessoais se sobreponham, baseada no isolamento e anonimato.

Tomada de decisão

No caso da audiência individualizada, a escolha é pautada por uma relação entre as preferências pessoais, necessidades pessoais e profissionais, e a programação disponível. Já na audiência coletiva, onde mais de uma pessoa assiste à mesma TV, há vários fatores que interferem na escolha. Critérios como idade, poder econômico e preferências da maioria, podem se sobrepor a um interesse pessoal. Neste caso, a convivência familiar pode ser mais importante do que a preferência por determinado programa.

Condições de uso

Limitações físicas e psicológicas podem interferir tanto na exposição à mídia, quanto na compreensão do conteúdo. Pessoas com deficiência visual ou auditiva preferem programas com menos informações textuais e efeitos sonoros reduzidos, respectivamente. Além disso, programações com recursos de acessibilidade adequados e compreensíveis, como audiodescrição, closed caption e tradução simultânea para Libras, tendem a ser escolhidos, independente das preferências pessoais.

Demanda

A demanda pode ser analisada também pelo fator que move a audiência, seja ele interesse na informação, no entretenimento, experiência religiosa, ou em ter barulho/companhia na casa. Como visto anteriormente, este último item está mais relacionado a hábitos do que a necessidades objetivas. Em todo caso, é um fator que define se a TV estará ligada ou não. A atenção dedicada à TV também está relacionada este fator. A demanda por informações tende a exigir concentração mental maior do que um entretenimento para passar o tempo.

Mobilidade

A localização e mobilidade estão relacionadas a fatores pessoais, uma vez que as tecnologias de

recepção, como celulares e mini TVs, são de uso pessoal. Apesar disso, há elementos sociais que interferem diretamente na escolha da programação e na demanda pelo tipo de informação. Este fator também poderia ser analisado sob a ótica das tecnologias disponíveis, o que não foi feito por duas razões. Primeiro, o contexto em que a audiência consome TV móvel ou portátil difere da TV fixa. Segundo, está se desenvolvendo no Brasil um novo mercado de televisão, baseado na transmissão 1-Seg, para dispositivos portáteis. Este mercado ainda carece de análises aprofundadas sobre impactos e usos.

Na recepção móvel e portátil, as esferas públicas, do trabalho e da casa se misturam [11]. O uso de telefones celulares na recepção da TV digital transcende seus papeis originais como simples ferramentas de comunicação interpessoal um para um.

O telefone celular não é apenas uma ferramenta pessoal, mas interfere na convivência com outras pessoas de várias formas. O principal uso é manter contatos profissionais e pessoais, independente do tempo e do espaço [12]. No entanto, a recepção do sinal de TV expande consideravelmente esse uso, agregando fatores de entretenimento e informação oferecidos por um canal de broadcast, ou seja, de um para muitos.

[13] estudaram os motivos e contextos em que vídeos no celular são assistidos e apresentam limitações para uso da recepção móvel. Segundo os autores, a TV digital móvel é considerada uma grande promessa na distribuição de conteúdo, podendo chegar a consumidores que atualmente não têm condições de consumir televisão tradicional.

O estudo apontou três motivos principais que levam as pessoas a assistirem TV móvel: passar o tempo, principalmente em situações de espera; acompanhar as novidades e se informar sobre eventos populares, como música e esportes. Apesar do foco na informação, notícias não foram citadas. Outro interesse citado na pesquisa foi o canal de jogos.

Já em relação ao contexto em que a TV móvel é assistida, os autores descobriram que o maior uso é dentro de casa, para individualizar a audiência. Outros momentos compreendem o transporte, além de pequenos e grandes intervalos, onde passar o tempo é importante. O uso secreto também foi apontado no estudo, onde os jovens assistem TV em ambientes em que ela é proibida, ou consomem conteúdo não autorizados pelos pais. Finalmente, a pesquisa mostrou que os jovens compartilham os telefones celulares, e assistem coletivamente alguns programas de TV, e não tem receio em emprestar os aparelhos para os amigos.

Se na televisão fixa há limites como alcance do sinal e audiência disponível, na recepção móvel e portátil os limitadores para a composição da audiência são outros. Inicialmente, do ponto de vista estrutural, disponibilidade do sinal sem quedas durante o

Page 71: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

Revista de Radiodifusão • v. 07 • n. 08 • 2013 71

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

10

percurso é fundamental. A cobertura deve ser plena sob pena de comprometer o interesse pelo programa. Quedas de sinal em determinados trechos podem impactar negativamente na percepção de valor que o telespectador desenvolve sobre a qualidade da informação ou do entretenimento.

O segundo item a ser considerado é a disponibilidade de receptores em escala suficientemente grande para impactar a audiência. Atualmente todas as emissoras da cidade de São Paulo transmitem sinal digital para receptores portáteis, mas inexistem números oficiais sobre a quantidade deles no mercado. Este fator desencadeia outro limitador, que é o conhecimento da tecnologia, e principalmente, da gratuidade do acesso. Com poucas campanhas de esclarecimento sobre a TV digital, a maior parte da população ainda confunde TV digital aberta, que é gratuita, com TV digital por assinatura, que é paga [14]. Com isso, o interesse é minimizado.

Além da necessidade de possuir um receptor móvel ou portátil, as pessoas precisam conhecer a programação disponível e se interessar por ela. A não adequação da programação ao momento em que as pessoas querem assistir TV pode gerar desinteresse. As emissoras geram hoje a mesma programação da TV fixa, em alta definição, para celulares, baixando apenas a resolução. Com tempo escasso, assistir a uma telenovela no transporte público é o exemplo contrário em relação a adaptar o conteúdo ao contexto de visualização. Um programa que demanda maior concentração por um espaço de tempo de 45 minutos, em um contexto de movimento, barulho e atenção ao ponto de descida, tem poucas chances de atrair um grande público.

Funcionalmente, o deslocamento é um tempo perdido, com poucas opções de laser. A atividade se deslocar demanda um desligamento mental do trajeto, para criar a sensação de que o tempo está passando mais rapidamente. Isso pode ser obtido através de uma leitura ou de um programa de TV. A partir dessa ação, a operação se torna inconsciente.

O problema surge na retomada da consciência, ou seja, na passagem da operação para a ação. Qualquer que seja o veículo usado no deslocamento, é necessário uma atividade cuidar do trajeto, para não perder o ponto de descida do ônibus ou a rua que conduz para o destino.

Dessa forma, programas que exigem menor concentração e que permitem desvios de atenção sem comprometer a compreensão da história, são mais adequados.

5.4. Modelo completo

Os três fatores descritos acima estão diretamente relacionados, gerando interferências e mudanças constantes de status dentro da atividade. Ver TV tem elementos sociais, culturais, históricos e pessoais, que moldam o comportamento, seja ele pró-ativo em relação à TV (buscando conteúdo), ou reativo (a partir

do conteúdo consumido). Neste aspecto, todos os fatores se misturam. A análise depende do objeto, que pode estar relacionado à TV como tecnologia, como provedora de conteúdos, ou como limitadora, ao não oferecer o conteúdo desejado. Em todos os casos, a mediação está no centro da análise.

Figura 3: Modelo baseado no contexto.

A Figura 3 apresenta este modelo, onde a TV é

mediadora entre o individual e o social, limitada pelos fatores de mídia. O que se busca aqui é identificar blocos de análise, visando mensurar e gerar dados sobre comportamento da audiência, de forma holística. Antropológica ou sociologicamente, inúmeras outras análises podem ser derivadas deste modelo, o que não é foco deste artigo.

6 Conclusões

A audiência é muito mais complexa do que os dados auferidos hoje podem representar. Ao fechar o foco das medições apenas no sexo, idade e classe social dos telespectadores, perde-se muita informação necessária para os planejamentos de mídia e de programação.

As complexas relações e mediações entre representações mentais e os consequentes comportamentos são subestimadas nos modelos tradicionais de medição da audiência. Este artigo propôs um novo modelo teórico, que incorpora a base da mediação atual, e expande a análise buscando as origens da necessidade e da motivação da atividade ver TV.

Através desta análise, percebe-se uma demanda por dados com detalhamento maior do que os três perfis utilizados. atualmente Compreender as motivações e comportamentos diante da TV é fundamental para desenvolver conteúdos mais interessantes e apropriados, assim como oferecer mensagens publicitárias mais efetivas.

Page 72: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio

72 Revista de Radiodifusão • v. 07 • n. 08 • 2013

“Pesquisas em ambientes digitais - TV • Internet • Radio • Cinema”

REFERÊNCIAS

[1] WEBSTER, James G., PHALEN, Patricia F, LICHTY, Lawrence W. Rating Analysis: The Theory and Practice of Audience Research. 3a ed. Londres: Lawrence Erlbaum Associates, Inc., 2006. [2] TECHNOLOGY REVIEW. Searching for the Future of Television. Disponível em <http://www.technologyreview.com/computing/26930/. Acesso em 16/10/2013. [3] HALLORAN, James. The Effects Of Television. Londres: Panther, 1970. [4] BECKER, V. ; Zuffo, Marcelo . Teoria da atividade como Framework para análise da audiência na TV digital. Comunicologia (Brasília), v. 01, p. 93-108, 2010. [5] Kaptelini, Victor; NARDI, Bonnie A. Acting with technology. Cambridge: MIT, 2006. [6] LEONTIEV, A. N. Activity and Consciousness. Progress Publishers, 1977. [7] LEONTIEV, A. N. Activity, Consciousness, and Personality. Prentice-Hall, 1978. Disponível em <http://lchc.ucsd.edu/mca/Paper/leontev/index.html>. Acessado em 16/10/2013. [8] VIGOTSKY, Lev. A formação social da mente. São Paulo: Martins Fontes, 1998.

[9] Engeström, Y. When is a tool? Multiple meanings of artifacts in human activity. In Learning, Working and Imagining, Orienta-Konsultit, Helsinki, Finland, 1990. p. 171–195. [10] KAPTELININ, Victor. Computer-Mediated Activity: Functional Organs in Social and Developmental Contexts. In NARDI, B. (Ed) Context and Consciousness: Activity Theory and Human-Computer Interaction. Harvard, MIT Press, 1995. [11] EDELMANN, J. e KOIVUNIEMI, J. Future development of mobile services and applications examined through the real options approach. Tektronix, 2, 2004. p. 48-57. [12] KNOCHE, Hendrik & MCCARTHY, John D. Design Requirements for Mobile TV. Em MobileHCI'05, September 19–22, 2005, Salzburg, Austria. [13] CUI, Yanking; CHIPCHASE, Jan; JUNG, Younghee. Personal TV: A qualitative Study of Mobile TV Users. In CESAR, Pablo et al. (Eds): EuroITV 2007, LNCS 4471, p. 195-204. [14] Fórum SBTVD. Estudo sobre conhecimento e consumo da TV Digital em 2012. São Paulo, Nielses, 2012. Circulação Restrita.

Page 73: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio
Page 74: set6.tempsite.wsset6.tempsite.ws/revistaderadiodifusao/pdf/revista8.pdfRADIODIFUSÃO Revista de volume 07 - número 07 - 2013 “Pesquisas em ambientes digitais tv - internet - radio