96
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA A DRIANO H ONORATO B RAGA Uma análise cienciométrica das subáreas da ciência da computação Goiânia 2013

Uma análise cienciométrica das subáreas da ciência da computação

  • Upload
    vukhue

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Uma análise cienciométrica das subáreas da ciência da computação

UNIVERSIDADE FEDERAL DE GOIÁSINSTITUTO DE INFORMÁTICA

ADRIANO HONORATO BRAGA

Uma análise cienciométrica dassubáreas da ciência da computação

Goiânia2013

Page 2: Uma análise cienciométrica das subáreas da ciência da computação

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE INFORMÁTICA

AUTORIZAÇÃO PARA PUBLICAÇÃO DE DISSERTAÇÃO

EM FORMATO ELETRÔNICO

Na qualidade de titular dos direitos de autor, AUTORIZO o Instituto deInformática da Universidade Federal de Goiás – UFG a reproduzir, inclusive em outroformato ou mídia e através de armazenamento permanente ou temporário, bem como apublicar na rede mundial de computadores (Internet) e na biblioteca virtual da UFG,entendendo-se os termos “reproduzir” e “publicar” conforme definições dos incisos VIe I, respectivamente, do artigo 5o da Lei no 9610/98 de 10/02/1998, a obra abaixoespecificada, sem que me seja devido pagamento a título de direitos autorais, desde quea reprodução e/ou publicação tenham a finalidade exclusiva de uso por quem a consulta,e a título de divulgação da produção acadêmica gerada pela Universidade, a partir destadata.

Título: Uma análise cienciométrica das subáreas da ciência da computação

Autor(a): Adriano Honorato Braga

Goiânia, 15 de Outubro de 2013.

Adriano Honorato Braga – Autor

Thierson Couto Rosa – Orientador

Page 3: Uma análise cienciométrica das subáreas da ciência da computação

ADRIANO HONORATO BRAGA

Uma análise cienciométrica dassubáreas da ciência da computação

Dissertação apresentada ao Programa de Pós–Graduação doInstituto de Informática da Universidade Federal de Goiás,como requisito parcial para obtenção do título de Mestre emCiência da Computação.

Área de concentração: Recuperação de Informações.

Orientador: Prof. Thierson Couto Rosa

Goiânia2013

Page 4: Uma análise cienciométrica das subáreas da ciência da computação

ADRIANO HONORATO BRAGA

Uma análise cienciométrica dassubáreas da ciência da computação

Dissertação defendida no Programa de Pós–Graduação do Instituto deInformática da Universidade Federal de Goiás como requisito parcialpara obtenção do título de Mestre em Ciência da Computação, aprovadaem 15 de Outubro de 2013, pela Banca Examinadora constituída pelosprofessores:

Prof. Thierson Couto RosaInstituto de Informática – UFG

Presidente da Banca

Prof. Cláudio Nogueira de MenesesCMCC-UFABC

Prof. Humberto José LongoINF-UFG

Page 5: Uma análise cienciométrica das subáreas da ciência da computação

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Adriano Honorato Braga

Graduou-se em Sistemas de Informação na UEG - Universidade Estadualde Goiás. Durante sua graduação foi voluntário do PRONACO, ministrandocursos de informática a pessoas carentes e também foi coordenador de projetosocial para inclusão digital à melhor idade. Atualmente é analista de sistemasdo Centro Universitário de Anápolis - UniEVANGÉLICA.

Page 6: Uma análise cienciométrica das subáreas da ciência da computação

Dedico este trabalho a todos, que assim como eu, acreditam que somente commuita educação e ética é possível um Brasil melhor.

Page 7: Uma análise cienciométrica das subáreas da ciência da computação

Agradecimentos

Primeiramente agradeço ao Criador Todo Poderoso por me conceder o direitode gozar da vida com muita saúde e vontade para seguir com perseverança em busca desuperar os obstáculos.

Agradeço aos meus pais Deusdete Braga e Arlete Honorato Braga por sempreme educarem com ética e serem os meus maiores propulsores para a conquista de meusobjetivos. À minha irmã Giane Honorato Braga que é uma excelente conselheira e amigacom palavras necessárias nos momentos ideais.

À minha noiva, breve e futura esposa, Ramayane Bonacin dos Santos, quesempre tem me apoiado em continuar adiante, respeitando os meus anseios, mesmo quese faça necessária a minha ausência em momentos tão importantes de nossas vidas.

Agradeço ao meu orientador, professor Dr. Thierson Couto Rosa, pela confiançadepositada em mim para a conclusão deste trabalho e principalmente por sua motivaçãoem não medir esforços a qualquer momento para imprescindíveis orientações.

Aos colegas que fiz durante este mestrado, em sua maioria de momentos intensosde estudos e discussão a cerca de computação, os quais me enriqueceram cada vezmais com conhecimentos. Principalmente aos colegas: Alison, Alexis, Douglas, Joeliase Mariana que se tornaram amigos para vivências externas à academia e contribuírampara que esta conclusão não fosse marcada apenas de muito suor, mas como também demomentos hilários que nos auxiliam no esgotamento mental ocasionado pela produção.

Agradeço também ao Centro Universitário de Anápolis - UniEVANGÉLICA - ecompanheiros de trabalho que me apoiaram nesta realização.

Por fim, agradeço a todas as pessoas que se cansaram de me ouvir falar emmestrado, e que me entenderam por falhar a tantas confraternizações por motivos dededicação a este trabalho. Com certeza, para quaisquer índices bibliométricos realizadosnestes últimos capítulos de minha autobiografia, a palavra que lideraria em todos osrankings seria: mestrado.

Sou eternamente grato e feliz por tudo isto.

Page 8: Uma análise cienciométrica das subáreas da ciência da computação

A nova fonte de poder não é o dinheiro nas mãos de poucos, masinformação nas mãos de muitos.

John Naisbitt

Page 9: Uma análise cienciométrica das subáreas da ciência da computação

Resumo

Braga, Adriano Honorato. Uma análise cienciométrica das subáreas da ciên-cia da computação. Goiânia, 2013. 94p. Dissertação de Mestrado. Institutode Informática, Universidade Federal de Goiás.

Trabalhos que analisam as produções bibliográficas nos mais variados ramos da ciên-cia têm se tornados comuns, principalmente na última década. Tais análises geralmenteutilizam-se de índices ou medidas propostas para avaliar relevância de diferentes atoresenvolvidos no processo de produção científica, tais como: autores, instituições, veículosde publicação e subáreas do ramo da ciência considerado. Vários trabalhos têm investi-gado a produção científica em ciência da computação sob diversos aspectos. Neste tra-balho é apresentado um estudo sobre a produção de artigos científicos nas subáreas dacomputação, bem como uma análise das citações entre as subáreas, derivadas das cita-ções existentes nos artigos pertencentes a cada subárea. Esse estudo apresenta novidadenão apenas pela abrangência das subáreas da computação analisadas, mas principalmentepor levar em consideração o aspecto cronológico (ano de publicação) do comportamentode cada subárea sob diferentes índices bibliométricos: quantidade de publicações, quanti-dades de citações recebidas, PageRank, Fator de impacto e um índice para aferir se umadeterminada subárea é citada diversificadamente por várias áreas ou se as citações sãofeitas principalmente por determinado grupo de subáreas. Algumas dessas medidas utili-zadas tradicionalmente para mensurar relevância de artigos ou veículos de publicação etiveram que ser adaptadas para a análise de subáreas. O trabalho permitiu derivar informa-ções interessantes para a comunidade científica em ciência da computação. É apresentadaa evolução histórica das subáreas da computação, mostrando como o interesse por autorese como as citações entre subáreas têm mudado ao longo do tempo. Algumas tendênciassão reveladas, alguns padrões são reconhecidos como sendo cronologicamente estáveis ealgumas subáreas têm se tornado menos atrativas do que outras.

Palavras–chave

análise bibliométrica, métricas, PageRank, fator de impacto, ACM, subáreas,ciências da computação

Page 10: Uma análise cienciométrica das subáreas da ciência da computação

Abstract

Braga, Adriano Honorato. A Scientometric Analysis of Computer ScienceSubfields. Goiânia, 2013. 94p. MSc. Dissertation. Instituto de Informática,Universidade Federal de Goiás.

Scientific studies about bibliographic productions in specific areas of science are beco-ming common, mainly in the last decade. Such investigations usually make use of bibli-ometric indices to evaluate relevance of the actors that take part in scientific productionprocess, such as: authors, institutions, venues, and subfields of the scientific area beingconsidered. Many studies have investigated the scientific production in computer scienceunder different views. In this work, its presented an analysis about the production of sci-entific article in computer science and an analysis of citations among subfields, derivedfrom article citation network. The work present novelty not only because it considersmany common sense fields in computer science, but also because it presents citation re-lated measures chronologically. The following bibliometric measures were used: numberof publications in each subfield, number of citations received by a subfield, Impact Fac-tor, PageRank, and a measure of diversity of subfields that cite a given subfield. Most ofthose metrics were proposed to study articles, web pages or scientific journals and theyhad to be adapted to be applied to the subfield analysis. This work has derived many inte-resting information to computer science community. It presents an historical evolution ofthe computer science subfields, showing how interest in publishing in subfields and howcitations among subfields have evolved during the years. Some trends are revealed, somepatterns are recognized to be stable along the time and some subfields are becoming lessattractive than others.

Keywords

bibliometric analysis, metrics, PageRank, impact factor, ACM, subfields, com-puter science

Page 11: Uma análise cienciométrica das subáreas da ciência da computação

Sumário

Lista de Figuras 11

Lista de Tabelas 12

1 Introdução 131.1 Motivação e Justificativa 131.2 Objetivos 141.3 Estrutura da Dissertação 15

2 Trabalhos Relacionados 162.1 Bibliometria, Cienciometria e Informetria 162.2 Medidas Bibliométricas 18

2.2.1 Fator de Impacto 202.2.2 PageRank 222.2.3 Índice H 23

2.3 Estudos bibliométricos em ciência da computação 25

3 Metodologia 303.1 Biblioteca Digital da ACM 30

3.1.1 Sistema de Classificação da ACM - CCS 313.1.2 ACM-DL-2008 33

3.2 Base de Dados - SubACM-DL-2007 353.3 Pré-Processamento 363.4 Organização Cronológica 393.5 Medidas Bibliométricas para subáreas 39

3.5.1 Definições básicas 403.5.2 Quantidade de citações aplicada a subáreas 413.5.3 Fator de impacto aplicado a subáreas 423.5.4 PageRank Ponderado aplicado a subáreas 423.5.5 Medida de diversidade 43

4 Análise temporal de subáreas da ciência da computação 454.1 Quantidade de publicações 454.2 Resultados da medida quantidade de citações 524.3 Resultados do cálculo do fator de impacto 584.4 Resultados do cálculo PageRank ponderado 614.5 Resultados da medida de diversidade 644.6 Análise de resultados 66

4.6.1 Medidas utilizadas 68

Page 12: Uma análise cienciométrica das subáreas da ciência da computação

4.6.2 Correlação entre as Medidas 714.6.3 Subáreas de Destaque em Ciência da Computação 72

5 Conclusões 74

Referências Bibliográficas 76

A The 1998 ACM Computing Classification System - Versão simplificada 84

Page 13: Uma análise cienciométrica das subáreas da ciência da computação

Lista de Figuras

2.1 Diagrama de inter-relação entre as três métricas. 182.2 Exemplo de diagrama para o fator de impacto (por Thomson Reuters). 202.3 Exemplo de cálculo do fator de impacto (por Thomson Reuters) 212.4 Links de páginas em loop (por [66]) 222.5 Cálculo simplificado do PageRank (por [66]) 232.6 Exemplo de autor A com índice H igual a 5 24

3.1 Tipos de Publicação 313.2 Quantidade de referências por tipo. 34

4.1 Quantidade de publicações por subárea. 464.2 Quantidade de citações por subárea. 534.3 Grafo de citações para a subárea C.2. 70

Page 14: Uma análise cienciométrica das subáreas da ciência da computação

Lista de Tabelas

2.1 Tipologia para definição e classificação das métricas (por McGrath apud[59]) 19

3.1 Categorias de primeiro nível no CCS. 323.2 As principais características da SubACM-DL-2007. 36

4.1 Quantidade de publicações das subáreas por biênio. 474.2 Tabela comparativa de ordenações da quantidade de publicações das

subáreas por grupos de cinco biênios (década). 494.3 As 30 subáreas com maior número de citações recebidas por biênio. 544.4 Tabela comparativa de ordenações do número de citações recebidas

acumuladas nos biênios das subáreas por década. 564.5 Nomes das cinco subáreas que mais ganharam posições entre as orde-

nações 1987-1996 e 1997-2006. 574.6 Nomes das cinco subáreas que mais perderam posições entre as ordena-

ções 1987-1996 e 1997-2006. 574.7 Fator de Impacto por biênio para as 30 subáreas mais citadas 594.8 Tabela comparativa de ordenações do Fator de Impacto das subáreas por

década 604.9 PageRank por biênio para as 30 subáreas mais citadas. 614.10 Tabela comparativa de ordenações do PageRank Ponderado por década. 634.11 Cinco subáreas que mais citam subáreas que se destacam por Page-

Rank. O número entre parênteses corresponde ao número de citações. 644.12 Medida da diversidade por biênio para as 30 subáreas mais citadas. 654.13 Tabela comparativa de ordenações da Medida de Diversidade por década. 664.14 As 10 subáreas que mais citam uma determinada subárea. 674.15 As dez subáreas com melhores posições no período 1997-2006 em

ordem crescente das seguintes medidas: número de publicações, númerode citações e PageRank acumulado. 71

4.16 Valores da correlação de Spearman. 724.17 Subáreas de maior destaque. 73

Page 15: Uma análise cienciométrica das subáreas da ciência da computação

CAPÍTULO 1Introdução

Este trabalho visa investigar como a Ciência da Computação tem evoluídoao longo dos últimos anos, tomando como base as publicações científicas da área.A motivação principal do trabalho é um estudo quantitativo do comportamento dassubáreas1 da computação ao longo dos últimos anos. Tal estudo se baseia no número depublicações de cada subárea e também no relacionamento entre elas, caracterizado pelasreferências bibliográficas presentes nos seus artigos científicos.

1.1 Motivação e Justificativa

Desde a década de 70 do século passado, tem crescido o interesse da comunidadecientífica em obter informações derivadas de publicações nas diversas áreas da ciência. Amotivação que mais tem influenciado estudos sobre publicações científicas é a necessi-dade de avaliação de artigos científicos, dos seus autores, e de veículos de publicação.

Os interesses que motivam essas avaliações são diversos. Os editores têm inte-resse que os artigos publicados em suas revistas científicas (journals) correspondam atrabalhos de qualidade e que sejam influentes no surgimento de outros trabalhos cientí-ficos. Esse status de publicar trabalhos de qualidade torna a revista uma fonte famosa erespeitada para publicações, gerando assim mais lucro para as editoras. Os pesquisadoresde universidades e centros de pesquisa concorrem a financiamentos para seus trabalhoscientíficos e também a prêmios pela relevância de seus trabalhos acadêmicos. Uma dasformas mais práticas de avaliá-los é através do reconhecimento dos seus artigos publica-dos. A relevância de um artigo tem sido tradicionalmente medida com base nas citaçõesrealizadas por outros artigos.

Uma área da ciência da informação, cienciometria, tem se desenvolvido aolongos dos anos com o objetivo de avaliar quantitativamente as informações decorrentesde publicações e citações entre a publicações (veja Seção 2.1). Um dos trabalhos pioneirosnesta área é o de Eugene Garfield que em [40] propôs a métrica fator de impacto,

1Subárea corresponde a uma categoria de publicações da área da computação.

Page 16: Uma análise cienciométrica das subáreas da ciência da computação

1.2 Objetivos 14

utilizada inicialmente para avaliar revistas indexadas. Posteriormente, outras métricasforam criadas para avaliar a relevância de artigos, veículos de publicação e autores.

Quando informações adicionais sobre as publicações estão disponíveis, taisinformações podem ser combinadas com informações de citações entre artigos e com isso,enriquecer a análise e compreensão de uma determinada área científica. Por exemplo,geralmente quando a informação ano de publicação está disponível, é possível avaliarcomo a relevância de um determinado autor, artigo ou veículo de publicação tem variadoao longo dos anos. Essa informação adicional dá uma dimensão importante ao problemade se aferir relevância, caracterizando-a como uma variável temporal.

Sabemos que a maioria das áreas científicas são subdivididas em subáreas outópicos. Quando a informação de subárea está associada a cada artigo, em adição ao anode publicação, outra dimensão é dada ao processo de avaliação da relevância. Neste casoé possível transferir a noção de relevância dos artigos às subáreas em que se enquadram,permitindo uma análise de como a importância das subárea varia com o passar dos anos.

Além disso, as referências entre artigos de subáreas distintas podem ser utiliza-das como ligações entre subáreas, permitindo mostrar como os relacionamentos entre assubáreas se comportam ao longo do tempo. Esse relacionamento é interessante aos coor-denadores de cursos em universidades, pois pode servir de subsídio para a organização eatualização de currículos escolares. Também é interessante a pesquisadores iniciantes, queassim podem ter uma visão de como sua pesquisa se relaciona com as diversas subáreasdentro da Ciência da Computação.

Vários trabalhos na literatura científica investigam as publicações em ciênciada computação [16, 36, 37, 38, 39]. É do nosso conhecimento apenas dois trabalhos[14, 60] que consideram subáreas ou tópicos em suas análises bibliométricas. Porém,não conhecemos trabalhos que analisam as subáreas da computação sob o ponto de vistatemporal. Este trabalho objetiva preencher esta lacuna, conforme detalhado na seçãoseguinte.

1.2 Objetivos

O trabalho teve como objetivo investigar as subáreas da ciência da computaçãosob dois aspectos:

a) evolução das subáreas da ciência da computação sob o ponto de vista de número depublicações;

b) evolução das citações entre subáreas da computação.

Em relação ao primeiro objetivo, investigou-se a concentração de publicaçõesem subáreas e como essa concentração varia com o tempo. Pôde-se observar que algumas

Page 17: Uma análise cienciométrica das subáreas da ciência da computação

1.3 Estrutura da Dissertação 15

subáreas sempre foram populares a autores, outras se tornam tendências e algumas têmsofrido declínio no número de publicações; tal declínio tem se repetido nos últimos anos.

Em relação ao objetivo do item b), este trabalho estuda o relacionamento porcitações entre as diversas subáreas da ciência da computação, através de índices biblio-métricos, tais como: contagem de citações, PageRank [66] e Fator de Impacto - FI [40]. Otrabalho mostra como estes índices variaram biênio a biênio. Esse estudo permitiu anali-sar quais são as subáreas que têm servido de suporte a outras subáreas ao longos dos anose quais as subáreas têm influenciado mais outras subáreas com o decorrer das mudançasnas publicações científicas.

1.3 Estrutura da Dissertação

No Capítulo 2 são apresentados os trabalhos relacionados, mostrando, inicial-mente, uma visão histórica da área da ciência da informação que trata do estudo de mé-tricas para produção científica. Em seguida, são apresentados trabalhos relacionados amétricas utilizadas e trabalhos relacionados a cienciometria em ciência da computação. OCapítulo 3 apresenta a metodologia utilizada para a análise cienciométrica das subáreasda computação. Inicialmente, é apresentada a coleção de artigos científicos categorizadaem subáreas que foi utilizada no trabalho. Em seguida, são apresentadas as medidas bi-bliométricas e as adaptações que foram necessárias para que tais medidas pudessem serutilizadas para aferir relevância de subáreas. O Capítulo 4 apresenta os resultados das mé-tricas aplicadas cronologicamente às subáreas e apresenta várias análises e interpretaçõesdos resultados. O Capítulo 5 apresenta as conclusões e sugestões de trabalhos futuros.

Page 18: Uma análise cienciométrica das subáreas da ciência da computação

CAPÍTULO 2Trabalhos Relacionados

Neste capítulo é feita uma revisão sobre trabalhos que investigam o uso de mé-tricas para avaliar publicações científicas sob diversos aspectos, tais como: identificaçãode publicações relevantes a uma determinada área de conhecimento, relevância de autoresque publicam em uma determinada área, entre outros.

A Seção 2.1 apresenta um breve histórico sobre bibliometria, cienciometria einformetria. Conforme Larivière em [52] estes três termos são frequentemente utilizadoscomo sinônimos para os estudos quantitativos de coleções de documentos bibliográficos(artigos, anais, revistas indexadas, entre outros). E estes termos podem ser aplicados noestudo de qualquer tipo de literatura com o objetivo de caracterizar as publicações emuma determinada área de conhecimento, ou seus autores, instituições, palavras e citações.A Seção 2.2 comenta trabalhos sobre medidas bibliométricas, algumas delas adaptadas noCapítulo 3 para serem utilizadas com subáreas. A Seção 2.3 discute trabalhos que, comoeste, analisam publicações em ciência da computação, apresentando as semelhanças ediferenças entre tais trabalhos e os resultados relatados neste texto.

2.1 Bibliometria, Cienciometria e Informetria

O termo bibliometria causa muita confusão entre publicações de notáveis pes-quisadores quanto ao seu surgimento. Em 1923, o inglês Edward Wyndham Hulme [47]reportando-se a um estudo pioneiro de Cole e Eales de 1917, referente à análise estatísticade uma histórica anatomia comparativa [29], cunhou a expressão bibliografia estatística.Porém, apenas 11 anos depois, em 1934, surgiu o primeiro emprego do termo bibliome-tria, do francês bibliométrie, utilizado pelo belga Paul Otlet em seu documento Traité de

documentation [64], sendo que segundo Fonseca em [65], Paul Otlet já se ocupava doassunto desde 1900 [63].

Os autores em [53, 59, 72, 75] comentam que o termo bibliometria foi utilizadopela primeira vez em 1969 por Pritchard, que popularizou o termo quando discutia sobrea substituição ou não de bibliografia estatística por bibliometria em [67].

Page 19: Uma análise cienciométrica das subáreas da ciência da computação

2.1 Bibliometria, Cienciometria e Informetria 17

Sengputa em [72] afirmou que Campbell em 1896 realizou o primeiro estudobibliométrico, de que se tem conhecimento, por meio de métodos estatísticos paraentender a variedade de temas nas publicações.

Existem várias definições distintas de autores para bibliometria. Neste trabalhoé utilizada a definição descrita em [75], que se refere à bibliometria como o estudo dosaspectos quantitativos da produção, disseminação e uso da informação registrada. A bibli-ometria desenvolve padrões e modelos matemáticos para medir esses processos, usandoseus resultados para elaborar previsões e apoiar tomadas de decisão. Essa definição debibliometria é também empregada em [59].

Um fator relevante para esta definição são as duras críticas feitas em [30] quantoà tendência dos autores ingleses em ignorarem por autossuficiência ou por desconheci-mento de outras línguas ao não citarem trabalhos realizados anteriormente. Uma dessascríticas em [30] é quanto à ignorância e falta de consideração para a definição descrita porPaul Otlet [63].

Cienciometria, no russo naukometrya. E no inglês scientometrics, surgiu naextinta URSS e obteve notoriedade internacional com o aparecimento do periódicohúngaro Scientometrics em 1977. A cienciometria é considerada a ciência que estudaos coeficientes científicos para dar valores quantitativos a uma pesquisa, periódico ou atémesmo pesquisador.

Conforme definição em [75], cienciometria é o estudo dos aspectos quantitativosda ciência como uma disciplina ou atividade econômica. A cienciometria é um segmentoda sociologia da ciência, sendo aplicada no desenvolvimento de políticas científicas. En-volve estudos quantitativos das atividades científicas, incluindo a publicação e, portanto,sobrepondo-se na abrangência de estudo à bibliometria, assim como definido em [59].

Informetria, do alemão informetrie, considerado o termo mais recente dos trêsaqui tratados, teve sua primeira proposta em 1979 por Nacke para cobrir parte dosdados que lidam com medição de fenômenos da informação e a aplicação de métodosmatemáticos [46]. Demais autores, como o próprio Nacke um ano depois em 1980, Bonitzem 1982 e Viniti em 1984, estabelecem como definição de informetria um campo maisamplo que bibliometria e cienciometria. Na Figura 2.1 é possível verificar com maiorclareza a abrangência da informetria comparada as demais.

Tague-Sutcliffe define, em [75], informetria como o estudo dos aspectos quanti-tativos da informação em qualquer formato, e além de registros catalográficos ou biblio-grafias, referente a qualquer grupo social, e não apenas aos cientistas. A informetria podeincorporar, utilizar e ampliar os muitos estudos de avaliação da informação que estão forados limites tanto da bibliometria como da cienciometria [59].

Ainda segundo Tague-Sutcliffe a informetria verifica a ocorrência de palavras,documentos e demais conteúdos, medindo assim a relevância (neste caso quanto ao

Page 20: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 18

Figura 2.1: Diagrama de inter-relação entre as três métricas.

número de referências a outras publicações). Esta área de estudo visa melhorar a eficiênciana recuperação dos documentos.

A Tabela 2.1 exemplifica de forma resumida as três métricas descritas anterior-mente, comparando: o objeto de estudo, as variáveis, os métodos e objetivos. Essa tabelafoi representada inicialmente por William McGrath [59] e posteriormente reaproveitada etraduzida por Macias-Chapula em [59].

Em [46] é possível verificar uma análise quantitativa da utilização destes termose como é expressamente maior a utilização do termo bibliometria comparado aos demais.O termo bibliometria aparece cerca de cinco vezes a mais que o termo cienciometria edez vezes mais que o termo informetria. Este último ocupa a última posição quantitativano estudo até mesmo por ser o mais recentemente criado. Muitas outras derivaçõesde métricas também são encontradas na literatura, como: netometrics, webometrics ecybermetrics.

Com base na Tabela 2.1, considera-se que este trabalho se enquadra comoum estudo da área de cienciometria, pois é realizado um estudo quantitativo sobre aspublicações nas subáreas da ciência da computação. Entretanto, como a maioria dostrabalhos classificados sob os três termos (e também este trabalho) utilizam-se de medidasou índices em comum, utiliza-se, neste texto, o termo medidas bibliométricas para sereferir de forma genérica a essas medidas.

2.2 Medidas Bibliométricas

Medidas bibliométricas podem ser utilizadas tanto por cientistas experientesque desejam realizar comparações entre periódicos e publicações como também porestudiosos que estejam iniciando sua pesquisa em determinada área e necessitam sabercom maior agilidade de onde obter os dados mais relevantes.

Page 21: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 19

Tabela 2.1: Tipologia para definição e classificação das métricas(por McGrath apud [59])

Tipologia Bibliometria Cienciometria InformetriaObjetosdeestudo

Livros, documentos, re-vistas, artigos, autores eusuários

Disciplinas, assuntos,áreas e campos

Palavras, documentos ebases de dados

Variáveis Número de emprésti-mos (circulação) e decitações, frequência decitação de palavras, ex-tensão de frases e etc.

Fatores que diferen-ciam as disciplinas esubdisciplinas. Revis-tas, autores, documen-tos. Como os cientistasse comunicam.

Difere da cienciometriano propósito das variá-veis; por exemplo, me-dir a recuperação, a re-levância, a revocação eetc.

Métodos Ranking, frequência,distribuição.

Análise de conjunto ede correspondência.

Modelo vetor-espaço,modelos booleanos derecuperação, modelosprobabilísticos; lingua-gem de processamento,abordagens baseadasno conhecimento.

Objetivos Alocar recursos: tempo,dinheiro etc.

Identificar domíniosde interesse, onde osassuntos estão concen-trados. Compreendercomo e quão frequente-mente os cientistas secomunicam.

Melhorar a eficiênciada recuperação.

A citação pode ser considerada um dos marcadores mais importantes para ocálculo das medidas bibliométricas ou cienciométricas. Segundo a norma NBR 105-2002, citação é a menção de uma informação extraída de outra fonte. Pode-se definircomo citação em artigos científicos como a ação de um autor citar, fazer referência, aum outro artigo. Desta forma, referenciando também o autor ou autores daquela obra.Este trabalho, por tratar as citações apenas de modo quantitativo, considera como citaçãoapenas os textos ou os números que aparecem imersos no texto de um trabalho científico,identificando uma obra que aparece na seção de referência bibliográfica desse trabalho.Por exemplo, considera-se como citações no texto desta dissertação os números entrecolchetes que se referem a trabalhos listados na Seção Referências Bibliográficas. Aquantidade de citações recebidas de um artigo ou autor está relacionada diretamente comsua notoriedade, podendo esta ser de forma positiva ou negativa.

Nas próximas seções são apresentadas algumas das medidas bibliométricas maisutilizadas por pesquisadores, instituições de ensino e até mesmo por órgãos públicos comoforma de mensurar a quantidade de investimento (bolsas científicas) a serem destinadas acada área.

Page 22: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 20

2.2.1 Fator de Impacto

O fator de impacto é utilizado para verificar a relevância de um periódicocomparado aos demais de uma mesma área, com base no número de citações entre osperiódicos em um determinado período. Os critérios para a métrica foram inicialmentepropostos em 1955 por Eugene Garfield, o fundador do ISI - Institute for Scientific

Information - [42]. O fator de impacto de um determinado periódico (journal) J em umdado ano n, é definido em [41], de acordo com a fórmula 2-1.

FIn(J) =Cn

an−1 +an−2, (2-1)

onde Cn é o número de citações de artigos publicados no ano n a artigos do journal J

que foram publicados no biênio anterior, isto é, anos n−1 e n−2. Os valores an−1 e an−2

correspondem aos números de artigos do periódico J que foram publicados nos anos n−1n−2, respectivamente.

A Figura 2.2 representa um exemplo de diagrama do cálculo do fator de impactodo biênio 2004 (2004 e 2003) devido às citações ocorridas no ano de 2005.

Figura 2.2: Exemplo de diagrama para o fator de impacto (porThomson Reuters).

O ISI em 1992 foi incorporado à Thomson Reuters, agência internacional denotícias, e após esta data o fator de impacto e a base de dados fonte para o indicador, JCR- Journal Citation Reports -, compõem o Web of Knowledge.

Segundo vários autores, por exemplo [28], o fator de impacto é uma das medidasbibliométricas mais utilizadas. Destaca-se porém que são avaliadas apenas citações derevistas que foram indexadas pela ISI, Web of Science, e não é utilizado para o cálculo decitações de livros e teses.

Conforme o exemplo de cálculo da Figura 2.3, são considerados no denominadorapenas artigos citáveis (aqueles que realizam ou recebem ao menos uma citação), contudoo numerador possui todas as citações realizadas no período incluindo as auto-citações

Page 23: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 21

Figura 2.3: Exemplo de cálculo do fator de impacto (por ThomsonReuters)

(citações de artigos de um periódico J a outros artigos do mesmo periódico J). Existemainda diversas variações para o cálculo do fator de impacto, como a que desconsidera asauto-citações.

Índice imediato é uma variação do fator de impacto utilizado para avaliar arepercussão rápida proporcionada pelo artigo. O índice imediato é calculado pela divisãoda quantidade de vezes que um artigo foi citado no ano de publicação do periódicopela quantidade de publicações deste periódico no mesmo ano. O cálculo desse índiceé realizado ano a ano pela Thomson Reuters.

Em outras palavras, o cálculo do índice imediato para um periódico publicadono ano de 2012, é definido como:

• Se A = é o número de vezes que um artigo publicado por um periódico no ano de2012 foi citado por todos os periódicos do ano de 2012 e• e se B = é a quantidade de publicações do periódico no ano de 2012.• Então A/B = é o índice imediato do periódico no ano de 2012.

Da mesma forma que para o fator de impacto, há falhas nesta medida. Porexemplo, o ISI publicações como revistas indexadas, itens e erratas.

O fator de impacto e suas variações recebem críticas por considerar todas ascitações como tendo o mesmo valor, isto é, contam-se todas as citações recebidas porum periódico como sendo iguais. Por essa razão, o fator de impacto é considerado umamedida de popularidade, ou seja, um periódico que recebe em média muitas citações éconsiderado popular.

Posteriormente, alguns pesquisadores propuseram medir a relevância de artigosou periódicos não apenas pela quantidade de citações recebidas, mas considerandotambém o prestígio do artigo que faz citações. O PageRank, apresentado na Seção 2.2.2 éuma medida de prestígio proposta inicialmente para uso com páginas da Web.

Page 24: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 22

2.2.2 PageRank

PageRank é um dos algoritmos responsáveis pela classificação de páginas daWeb, utilizado pela máquina de busca Google, e pode ser considerado como a molapropulsora responsável pelo grande sucesso da Google. O PageRank foi criado por Brin ePage em [25, 66], então na época, 1998, acadêmicos de Ph.D de Ciências de Computaçãoda Universidade de Stanford. O propósito dos autores era modificar a classificaçãoexistente na Web, dando maior objetividade aos dados retornados a consultas submetidasà maquina de busca.

Uma das maiores preocupações em [66] era da construção de um algoritmoque fosse de difícil manipulação, pois existiam muitos incentivos comerciais para amanipulação e obtenção de benefícios com os resultados. O PageRank também foi criadocom o intuito de saber qual a probabilidade de uma pessoa encontrar uma determinadapágina na Web, selecionando de forma aleatória hyperlinks. O cálculo é realizado de formaiterativa e escalável. A ideia principal do cálculo é de não contar os links recebidos deoutras páginas como sendo todos o mesmo valor.

Em [25], assume-se que uma determinada página A possui um conjunto Pn =

{P1...Pn} páginas que apontem para A por meio de hyperlinks. O PageRank PR(A) dapágina A é computado de forma recursiva pela fórmula 2-2

PR(A) = (1−d)+dn

∑i=1

PR(Pi)

C(Pi), (2-2)

onde PR(Pi) é o PageRank atual de uma página Pi, que aponta para A e C(Pi) é aquantidade de links que saem da página Pi. O parâmetro d é utilizado como um fator deamortecimento de probabilidade do internauta ficar entediado da página e acessar outrapágina aleatoriamente, sem seguir quaisquer hyperlinks, assim como no caso de cair emum loop de páginas conforme mostra a Figura 2.4. O valor do fator de amortecimento éum numero real que varia entre 0 e 1 e é usualmente utilizado por [25] como 0,85.

Figura 2.4: Links de páginas em loop (por [66])

A Figura 2.5 demonstra um cálculo simplificado do PageRank. A primeira

Page 25: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 23

página, localizada na parte superior esquerda da figura possui valor de PageRank iguala 100 e referencia duas outras páginas. O resultado portanto de cada apontamento feitopor esta página terá valor de 100 dividido por 2, resultando em uma transferência deprestígio (isto é, PageRank) de 50 para as páginas referenciadas.

Figura 2.5: Cálculo simplificado do PageRank (por [66])

Existem outros trabalhos realizados anteriormente à proposta do PageRank, coma intenção de ordenar melhor as páginas de Web em respeito a uma consulta, utilizando-sede valor de prestígios das páginas. Destaca-se o modelo demonstrado em [50], Hyperlink-

Induced Topic Search, mais conhecido apenas por sua sigla, HITS.O HITS computa recursivamente duas medidas de prestígio mutuamente depen-

dentes: hubs e autoridades. Uma página tem seu valor de hub alto, se ela cita páginas comalto valor de autoridade. De modo análogo, uma página tem alto valor de autoridade, seela é citada por páginas com alto valor de hub.

Uma das diferenças do PageRank para o HITS é a maior sensibilidade desseúltimo quanto à manipulação dos links para forçar um posicionamento melhor de deter-minada página na ordenação por prestígio. No HITS essa manipulação é mais fácil, pelofato de que ao criar vários links originados de uma dada página p, para outras páginasde alto número de recebimentos de citações isso já basta para elevar o cálculo de hub dapágina p e, consequentemente, aumentar o valor de autoridade das demais páginas apon-tadas por p. Por outro lado, no algoritmo PageRank, se a quantidade de links originadosde uma página p aumentar, a contribuição de PageRank que p transmite a cada páginaapontada por p diminui.

2.2.3 Índice H

O índice H é uma das medidas bibliométricas com maior utilização no meioacadêmico para se avaliar autores. Foi introduzida pelo físico argentino Jorge E. Hish,

Page 26: Uma análise cienciométrica das subáreas da ciência da computação

2.2 Medidas Bibliométricas 24

professor da Universidade da Califórnia em San Diego no ano de 2005. O objetivo doíndice H é de mensurar o trabalho de um cientista por meio das citações recebidas emsuas publicações [45].

Seja P o número de publicações de um autor A. O valor do índice H de A é o valorc, tal que c de suas P publicações recebem c ou mais citações e as outras P−c publicaçõesrecebem menos que c citações. Ou seja, se um cientista possui o índice H igual a 12, issosignifica que ele tem no mínimo 12 artigos publicados que receberam cada um 12 ou maiscitações. Conforme a quantidade de publicações e citações recebidas pelo autor aumenta,o valor do índice H aumenta. Desta forma, após atingir um determinado índice H o autorjamais diminui este índice para o mesmo período temporal avaliado, isso ocorre pelo fatodo valor do índice ser acumulativo.

A Figura 2.6 ilustra como obter o índice H para um determinado autor. A figuramostra o número de publicações P do autor A que recebem c citações. A tabela dafigura está ordenada de modo decrescente pela quantidade de citações recebidas. Comoa quantidade de publicações P, não pode superar o número de citações, c, então o índicedo autor em questão é 5, pois possui 5 publicações com 5 ou mais citações. O ano depublicação neste caso não está sendo avaliado na ordem, nem mesmo interferindo nocálculo do índice.

Figura 2.6: Exemplo de autor A com índice H igual a 5

Muitos são os sites da Web que possuem interface de fácil acesso ao cálculodo índice H: scHolar index [11], QuadSearch [9], Harzing’s Publish and Perish [4] eo site brasileiro, SHINE - Simple HINdex Estimation [12], desenvolvido por professorese alunos da UFAM - Universidade Federal do Amazonas. O índice H também pode ser

Page 27: Uma análise cienciométrica das subáreas da ciência da computação

2.3 Estudos bibliométricos em ciência da computação 25

utilizado para o cálculo do índice H das instituições de ensino e conferências, assim comoo realizado pelo SHINE para a análise de conferências.

Uma das desvantagens mais citadas por diversos autores [19, 23, 24, 80], índiceH é o fato de penalizar os pesquisadores jovens que possuem poucas publicações comalto número de citações. Desta forma podemos ter um cientista que possui 3 publicações,sendo 2 delas com mais de 30 citações e uma com 5 citações, sendo assim seu índice Hserá 3 por possuir no mínimo 3 publicações com 3 citações ou mais. De forma contráriaocorrerá para cientistas que possuem muitas publicações porém com uma baixa média decitações.

Waltman e Eck em [79] criticam o índice H por ser inconsistente. Suponha queum pesquisador A tem um total de indicação de performance menor que um pesquisadorB por índice H. Se for acrescentada uma publicação ou quantidade igual de publicaçõespara ambos, tendo estas publicações o mesmo número de citações cada, o pesquisador A

deveria se manter com performance menor que a do pesquisador B, porém não é isso queocorre com o índice H, dependendo da quantidade de citações recebidas pela publicaçãoacrescentada.

Suponha que o pesquisador A tenha três publicações com cinco citações cadauma, enquanto que o pesquisador B tenha quatro publicações, com quatro citaçõescada uma. Então, suponha novamente que ambos pesquisadores obtenham uma novapublicação com cinco citações. O índice H do pesquisador A então irá para quatro e odo pesquisador B se manterá em quatro, e se obtivessem mais uma publicação tambémcom cinco citações recebidas, assim o pesquisador A ultrapassaria a performance dopesquisador B. O pesquisador A passa a ter índice de valor cinco, enquanto que opesquisador B se mantem com quarto, violando assim a propriedade da consistênciaproposta por [79], que avalia apenas a publicação e a data de citação. O mesmo ocorrequando avaliado o índice H para a soma de grupos de pesquisadores.

2.3 Estudos bibliométricos em ciência da computação

Nesta seção são apresentados trabalhos relacionados a esta dissertação quanto aoestudo bibliométrico da área da ciência da computação.

Boa parte dos trabalhos em cienciometria discute métricas para classificar a rele-vância das revistas científicas e conferências. Por exemplo, os autores em [39] propuseramuma análise das publicações das áreas da computação presentes na base de dados do Go-

ogle Scholar comparadas às da base ISI Web of Knowledge. Os autores utilizaram o fatorde impacto, descrito na Seção 2.2.1, por considerá-lo o mais popular índice bibliomé-trico utilizado para valorar revistas indexadas. O estudo foi restringido a 15 conferênciase 15 revistas indexadas com publicações entre o período de 2000 e 2003, que estivessem

Page 28: Uma análise cienciométrica das subáreas da ciência da computação

2.3 Estudos bibliométricos em ciência da computação 26

presentes no Google Scholar. No total, foram utilizados 3.258 artigos em conferências e5.506 artigos em revistas indexadas. Os autores constataram uma forte correlação entreos resultados das duas bases de dados, ressaltando assim a validade dos dados presentesna base de dados do Google. Além disso, concluíram que as conferências analisadas ob-tiveram uma boa média de citações recebidas quando comparadas às revistas indexadas.

Em [68] a preocupação foi classificar as melhores universidades por meio desuas publicações. Para tanto foi criado um framework utilizando a base de dados INSPEC[7], a qual também é utilizada pela biblioteca digital da IEEE [6]. Os autores em[68] justificaram a escolha da base de dados INSPEC por considerarem os seus dadosconsistentes quanto à afiliação dos autores dos artigos, apesar da base conter apenaso primeiro nome do autor. Este framework possui regras flexíveis para a realização docálculo, conforme:

1. definir a área de estudo, podendo ser todas as publicações da ciência da computaçãoou então de uma subárea, como Inteligência Artificial;

2. selecionar as instituições que possuem publicações da área escolhida e opcional-mente definir um peso para cada uma;

3. restringir o período temporal para a análise;4. assumir um peso para cada artigo publicado;5. dividir o peso da publicação em caso de vários autores e instituições;6. somar os pesos finais para cada instituição e autor;7. por fim, ordenar as instituições e autores com base na soma total das pontuações.

A maior motivação desse trabalho foi a de criar um framework que retornasseos resultados reais das instituições de ensino e auxiliasse os estudantes na decisão sobreem qual universidade estudar. O framework e os dados utilizados estão disponíveis paraconsulta em www.isr.uci.edu/projects/ranking/.

Pelo fato da biblioteca digital da ACM (Association for Computing Machinery)ter uma boa cobertura na literatura da ciência da computação, é bastante analisada pordiversos pesquisadores. Elmacioglu et al. [36] examinaram os dados da biblioteca noperíodo de 1950 até 2004, os quais contêm 609.000 autores e 770.000 publicações. Nesserelatório foram utilizados grafos comparativos de uma área emergente de estudo em redessociais para verificar a proximidade entre dois autores da ACM.

Em [36] os autores utilizaram o trabalho de S. Milgram, que em 1967 estudou emseu artigo The Small World Problem um fenômeno que também é conhecido como “os seisgraus de separação”. O trabalho de Milgram mostra que o valor esperado pela conexãoentre duas quaisquer pessoas nos Estados Unidos são de no máximo 6 intermediários. Notrabalho em [36], além do objetivo da análise das redes colaborativas dos pesquisadoresda ACM, também foram apresentados vários dados estatísticos como: a quantidade

Page 29: Uma análise cienciométrica das subáreas da ciência da computação

2.3 Estudos bibliométricos em ciência da computação 27

de publicações por autor, a quantidade de novos autores a cada ano, distribuição depublicações por autores e a alternância de co-autores por todo o período analisado.

Uma razoável quantidade de trabalhos [17, 44, 62, 70, 71, 86] visa comparardiferentes fontes de dados utilizando-se dos mesmos indicadores bibliométricos paraaveriguar se as pontuações serão diferentes ou até mesmo se as ordenações baseadasnos indicadores irão mudar significativamente. O estudo realizado em [37] compara 13indicadores bibliométricos distintos para mensurar a qualidade das publicações da ciênciada computação nas bases de dados Web of Science e Google Scholar. Os 13 indicadoresutilizados em [37] são:

1. O número de publicações feitas por autor;2. O número de publicações com pelo menos uma citação (artigos citáveis);3. O número de publicações por ano;4. O número de publicações por autor individualmente (no caso de vários autores para

um mesmo artigo é feito divisão por todos);5. O número de citações recebidas por uma publicação do autor;6. O número de citações por ano;7. O número de citações por autor individualmente (no caso de vários autores para um

mesmo artigo é feito divisão por todos);8. O número de citações por publicação;9. Índice H;

10. Índice G;11. Quociente M (índice H dividido por ano);12. Índice H contemporâneo;13. Índice H individual.

Os autores em [37] concluíram que a base de dados Google Scholar calcula osindicadores com valores mais altos, o que está relacionado diretamente com o fato depossuir maior quantidade e tipos de publicações.

Logo após o trabalho realizado em [37], o autor Massimo Franceschet [38] fezuma análise bibliométrica para investigar a frequência e o impacto das publicações daárea ciência da computação, comparando-as entre as conferências e revistas indexadas.Franceschet pôde constatar que os pesquisadores da ciência da computação publicammais em conferências do que em revistas indexadas. E um dos principais motivos paraesta diferença apontada pelo autor é pela razão da ciência da computação ser uma área emconstante mudança. Porém, o impacto proporcionado por uma publicação em uma revistaindexada, comprovado em [38], pode ser bem maior do que quando publicado em umaconferência. Sendo assim, o autor conclui que apesar dos esforços, por ser mais complexa,a publicação em revistas indexadas traz mais recompensas ao autor da publicação devidoao impacto proporcionado.

Page 30: Uma análise cienciométrica das subáreas da ciência da computação

2.3 Estudos bibliométricos em ciência da computação 28

Existem também na bibliografia muitos trabalhos que realizam análises regionaisde seus cientistas, assim como o trabalho em [16] que faz um comparativo entre as basesde dados WoS e Scopus, da área da ciência da computação. O objetivo desse trabalho é dequantificar as publicações que são de pesquisadores da Malásia.

De forma análoga, em [51] Kumar e Garg estabelecem o objetivo de analisar aspublicações dos países onde nasceram: Índia e China. Os autores apresentam a evoluçãoda quantidade de publicações para cada país no período de 1971-2000 (30 anos). Alémdisso, identificam quais são as subáreas de pesquisa que cada país tem concentradoesforço, avaliam o impacto da produção científica e analisam um padrão de co-autoriapara cada um dos dois países. Os pesquisadores Kumar e Garg concluem que a Índiapossui uma quantidade maior de publicações comparada com a China. Enquanto ospesquisadores chineses preferem publicar suas pesquisas em revistas domésticas, osindianos publicam mais em revistas do Ocidente. Quanto ao impacto proporcionado pelapesquisa científica dos dois países, não houve diferença significativa.

Apenas recentemente foram propostos trabalhos que consideram subáreas oucategorias de assuntos de uma área na análise bibliométrica de citações. Os autoresem [60] propuseram adaptações de vários índices, tais como fator de impacto e meiavida [34], para subáreas as quais eles denominam como tópicos. Os autores tambémpropuseram novas métricas como:

• a diversidade de um tópico t: a qual é uma medida de quanto o tópico t é citadopor outros tópicos. A métrica leva em consideração também o número de citaçõesfeitas por artigos de cada tópico t’ a artigos do tópico t;• transferência de um tópico t’ para um tópico t: a qual corresponde ao número de

artigos do tópico t’ que fazem referências ao tópico t.

Por fim, em [14], Akritidis et al. visam auxiliar novos estudantes da área da com-putação a definirem suas linhas de pesquisa tendo como base informações atuais e reais.Apesar de já existirem diversas métricas notórias como índice H e outras citadas pelos au-tores, os mesmos propõem uma métrica de modelo matemático com base em entrevistasrealizada com 141 cientistas de vários departamentos e universidades, questionando-osqual razão os levam a estabelecer que uma determinada área de estudo seja mais atrativae motivante para a pesquisa. Após as entrevistas, foi constatado que é necessário analisarvários parâmetros em conjunto para concluir quais áreas de estudo são as mais atrativas.Dada uma determinada subárea s, os seguintes parâmetros devem ser considerados:

• o número de publicações de s;• o ano das publicações de s;• o fator de impacto das publicações de s;• o índice de relevância das revistas indexadas que contêm publicações de s;

Page 31: Uma análise cienciométrica das subáreas da ciência da computação

2.3 Estudos bibliométricos em ciência da computação 29

• o inverso da importância de um índice que mede a relevância de autores quepublicam em s (a métrica valoriza mais subáreas em que há muitas publicaçõesde autores menos experientes).

Para a análise do conjunto de parâmetros foram utilizadas 744.760 publicaçõesda área da computação obtidos da biblioteca digital da CiteSeerX1. Akritidis et al. em[14] afirmam terem escolhido esta biblioteca digital por ser uma das poucas bibliotecasa fornecerem mecanismos de recuperação de dados2, isto ocorre devido às políticasrigorosas aplicadas pelas bibliotecas digitais com o intuito de protegerem seus registros.Para a classificação das publicações utilizaram o algoritmo de Getoor [43] e a taxonomiada ACM, pelo fato desta dividir a área da ciência computação em vários níveis e subníveis.Os autores concluíram que as áreas sugeridas como as mais atraentes e que não estão entreas mais populares são as de maior perspectiva futura para os novos pesquisadores.

Esta dissertação difere dos trabalhos anteriores pelo fato de analisar a relaçãoe relevância das subcategorias em subníveis mais detalhados - 81 ao invés de 11 - daciências da computação e ainda com a evolução temporal. Para isso, são utilizadas aspublicações da biblioteca digital da ACM, a qual possui mais informações detalhadasdas categorias (taxonomia) que são classificadas manualmente pelos autores. Maioresinformações da biblioteca digital da ACM são encontradas na próxima Seção 3.2.

1http://citeseerx.ist.psu.edu/2http://citeseerx.ist.psu.edu/oai2

Page 32: Uma análise cienciométrica das subáreas da ciência da computação

CAPÍTULO 3Metodologia

Neste capítulo é apresentada a coleção de artigos, que foi utilizada neste trabalho,categorizada em subáreas e as técnicas utilizadas para analisar as subáreas da ciência dacomputação ao longo dos anos. A análise das subáreas é feita sobre três aspectos:

• variação do número de publicações de cada subárea;• variação do número de citações recebidas por cada subárea;• variação da importância das subáreas.

A Seção 3.1 apresenta a Biblioteca Digital da ACM da qual derivou-se a coleçãoutilizada. A Seção 3.2 descreve o subconjunto da biblioteca digital que foi utilizado comobase para as análises deste trabalho. A Seção 3.3 faz uma síntese do pré-processamentorealizado para obter a coleção utilizada nesta dissertação. A Seção 3.4 apresenta ametodologia utilizada para a análise cronológica das subáreas da computação. A Seção 3.5apresenta as métricas utilizadas e as adaptações feitas a essas métricas para que pudessemcontemplar estudo temporal com relação a subárea.

3.1 Biblioteca Digital da ACM

A base de dados utilizada neste trabalho é derivada da Biblioteca Digital da ACM(ACM-DL) [2] mantida pela ACM- Association for Computing Machinery. A ACM [13] éa maior editora de publicações na área de computação. Foi criada em 1947, com a criaçãodo primeiro programa de armazenamento de dados para computador.

A ACM-DL contém todas as publicações em periódicos e anais de conferênciase simpósios já publicados pela ACM. As publicações se enquadram em 15 tipos distintos,conforme mostra a Figura 3.1.

As publicações do tipo Journal Article (37,37%) e Proceedings Paper (35,60%)são a maioria das publicações e somadas são quase dois terços da quantidade total depublicações. Todos os demais tipos de publicação não possuem nem mesmo 10% daquantidade total de publicações e o único tipo de publicação que possui mais do que5% destas, são as publicações do tipo Whole Book com 8,70% do total.

Page 33: Uma análise cienciométrica das subáreas da ciência da computação

3.1 Biblioteca Digital da ACM 31

Figura 3.1: Tipos de Publicação

3.1.1 Sistema de Classificação da ACM - CCS

As publicações contidas na versão da ACM-DL, utilizada neste trabalho, sãocategorizadas de acordo com a versão de 1998 do CCS - Categories of the Computing

Sciences, a qual corresponde a uma taxonomia criada pela própria ACM. Os artigospublicados são categorizados por seus próprios autores, com base no CCS. O documentoem [5] orienta os autores a como classificar seus artigos usando o CCS.

O CCS é um sistema de classificação hierárquico formado por quatro níveis decategorias [1, 10]. Os três níveis mais altos na hierarquia recebem um código definidopor letras e números e o último nível não possui código associado a ele. A hierarquiade classes do CCS é comumente referida como Árvore de classificação da ACM (ACM

classification tree) [3].O primeiro nível da hierarquia é formado por 11 categorias mais abrangentes, as

quais recebem as 11 primeiras letras iniciais do alfabeto como código, conforme mostra aTabela 3.1. As categorias de primeiro nível são muito amplas, no sentido de envolveremsubáreas bem distintas da computação. Por exemplo, a categoria D-Software envolvesubáreas de linguagem de programação, sistemas operacionais e engenharia de software.

O segundo nível da hierarquia corresponde a um primeiro detalhamento da cate-goria de primeiro nível e o seu código é formado pela letra da categoria mais abrangenteseguido de um ponto e um número. Por exemplo, D.3 Programming Languages é umacategoria de segundo nível da categoria D. Software de nível 1, e corresponde à subáreade linguagens de programação.

O terceiro nível da hierarquia tem como código uma sequência formada pelocódigo da categoria de segundo nível, seguida por um ponto e um digito. Assim, acategoria D.3.2 Language Classifications é uma categoria de terceiro nível e é uma

Page 34: Uma análise cienciométrica das subáreas da ciência da computação

3.1 Biblioteca Digital da ACM 32

Tabela 3.1: Categorias de primeiro nível no CCS.

Código NomeA General LiteratureB HardwareC Computer-Communication NetworksD SoftwareE DataF Theory of ComputationG Mathematics of ComputingH Information SystemsI Computing MethodologiesJ Computer ApplicationsK Computing Milieux

subcategoria de D.3 Programming Languages. Não são todas as categorias de primeironível que possuem subcategorias de terceiro nível. Por exemplo, as categorias: A, E e Jnão possuem categorias de terceiro nível.

O quarto nível de categorias é formado por expressões não precedidas porcódigo, as quais recebem as seguintes denominações:

• Subject Descriptors - são descritores de assuntos, isto é, alguns termos ou expres-sões que auxiliam na caracterização de publicações dentro das categorias codifica-das. Por exemplo, semantics e syntax são os descritores de assuntos são encontradosna subcategoria D.3.1 - Formal Definitions and Theory. (Definições formais parasintaxe e semântica de linguagens de programação).• General Terms - um conjunto de 16 termos genéricos comuns à maioria das áreas

da computação e que podem ser associados a qualquer elemento da hierarquia declasses. Por exemplo: Algorithms, Design e Documentation.• Implicit Subject Descriptors - é um conjunto de nomes próprios referentes a

empresas, programas de computador ou pessoas. Por formarem um conjunto grandede termos esses nomes não aparecem explicitamente na hierarquia do CCS.

Os descritores de assuntos podem aparecer detalhando qualquer nível de cate-goria. Por exemplo, a categoria sobre criptografia de dados (E.5 - Data Encryption) écomposta pelos seguintes descritores de assuntos: Code breaking, Data encryption stan-

dard e Public key cryptosystems.Alguns descritores de assuntos aparecem na hierarquia seguidos por dois asteris-

cos. Estes descritores são obsoletos; porém são mantidos na hierarquia por compatibili-dade com versões anteriores do CCS, mas não devem ser utilizados para classificar novaspublicações.

Page 35: Uma análise cienciométrica das subáreas da ciência da computação

3.1 Biblioteca Digital da ACM 33

As publicações na ACM-DL podem ter múltiplas categorias. Por exemplo, umdeterminado artigo da biblioteca é classificado como sendo da categoria D.3.2 e F.3.1.Isto implica que o artigo é sobre software (D. Software), sobre linguagens de programação(D.3 Programming Languages) e mais especificamente sobre classes de linguagens (D.3.2

- Language Classifications). Mas o artigo também é sobre teoria da computação (F- Theory of Computation), sobre lógica e significado de programas (F.3 - Logic and

meanings of programs) e sobre especificação, verificação e compreensão de programas(F.3.1 - Specifying and Verifying and Reasoning about Programs).

3.1.2 ACM-DL-2008

A coleção de publicações utilizada neste trabalho, a qual é descrita na próximaseção, é derivada de um conjunto de metadados que descrevem as publicações da ACM-DL até outubro de 2008. Este conjunto contém metadados de 1.216.616 publicações daACM-DL e será referido ao longo do texto por ACM-DL-2008. A ACM-DL-2008 foigentilmente cedida pelo então vice-diretor de publicações da ACM e diretor do programade editoração eletrônica, Bernard Rous.

Os metadados da ACM-DL-2008 referentes a um artigo A possuem a lista dereferências do artigo A. Esta lista contém dois tipos de referências: referências externase referências internas. As referências externas contêm apenas o texto que descreve areferência, por exemplo:

Rushby, J.M., and yon Henke, F. Formal verification of the interactire Conver-gence Clock Synchronization Algorithm using EHDM. SRIark CA, February1989.

Uma publicação associada a uma referência externa não possui metadados naACM-DL-2008. As referências internas, por outro lado, são referências a publicações quetambém se encontram na ACM-DL-2008 e, portanto, os metadados para essas publicaçõestambém estão disponíveis na ACM-DL-2008. Uma referência interna ri se distingue deuma referência externa por possuir, além do texto da referência, um código que identificaunivocamente ri na ACM-DL-2008.

A ACM-DL-2008 contém 6.190.807 referências bibliográficas, sendo 3.989.711referências externas e 2.201.096 referências internas. A Figura 3.2 mostra a proporçãoentre os dois tipos de referências na ACM-DL-2008.

A maioria das publicações, 57% (696.466) na ACM-DL-2008 está categorizadasegundo o CCS. Porém, como são os autores que classificam suas próprias publicaçõese anteriormente não era obrigatória a classificação, muitas publicações não possuemcategorias a elas associadas.

Page 36: Uma análise cienciométrica das subáreas da ciência da computação

3.1 Biblioteca Digital da ACM 34

Figura 3.2: Quantidade de referências por tipo.

Em qualquer área da ciência, é difícil obter uma coleção de artigos classificadaem subáreas e que seja grande o suficiente para representar uma amostra realística da área.Uma questão importante na análise bibliométrica de artigos categorizados corresponde aosistema de classificação adotado para categorizar a coleção. É desejável que esse sistemaseja bem aceito na comunidade científica relacionada à coleção. Ainda assim, devido àevolução da pesquisa, tal sistema não pode ser estático e periodicamente necessita seradaptado para contemplar possíveis fusões de subáreas e surgimento de outras.

A ACM-DL-2008 foi a coleção escolhida como base de estudo neste trabalhopelos seguintes motivos:

• é a maior coleção de artigos científicos de ciência da computação;• contempla artigos de conferências e revistas indexadas - é sabido que na ciência da

computação, artigos publicados em conferências são muito relevantes e publicaçãode artigos em conferências e em revistas indexadas é uma tradição entre cientistasda computação [27, 39]. A ACM-DL, por conter todas as publicações da ACM,contém tanto artigos de conferências como de revistas indexadas e, nesse sentido, éuma amostra realística das publicações na área de computação;• O sistema de classificação da ACM, CCS, é um sistema conhecido pelos autores

de artigos em computação. A versão do CCS de 1998 foi gerada com base emuma versão do CSS de 1991 e as mudanças nas categorias de dois primeiros níveisnão foram substanciais. Portanto, desde longa data o sistema de classificação temsido usado pelos autores. Além disso, o CCS é utilizado por outras bibliotecas quetambém possuem artigos na áreas de computação e engenharias, por exemplo, pelabiblioteca digital da IEEE.

Page 37: Uma análise cienciométrica das subáreas da ciência da computação

3.2 Base de Dados - SubACM-DL-2007 35

3.2 Base de Dados - SubACM-DL-2007

A ACM-DL-2008 não pode ser utilizada diretamente em um trabalho de análisebibliométrica por categorias, devido a duas características principais comentadas na Seção3.1.2:

• muitas referências são referências externas. Tais referências não podem ser compu-tadas por medidas bibliométricas relacionadas a número de citações recebidas porpublicações de uma determinada categoria;• muitas publicações descritas na ACM-DL-2008 não são classificadas. Tais publica-

ções não devem participar dos estudos sobre subáreas (categorias) da computação.

Uma subcoleção da ACM-DL-2008, a qual foi denominada SubACM-DL-2007,foi obtida visando eliminar da base de dados os problemas descritos acima. Nesta subco-leção foram mantidas apenas as publicações dos tipos capítulo de livro (Book Chapter),artigos de revistas indexadas (Journal Article) e artigos de conferências (Proceedings Pa-

per), porque apenas esses tipos de publicações fazem citações a referências internas. Essarestrição, contudo, não corresponde a um perda de informação no escopo deste trabalho,visto que o objetivo é o de analisar o desenvolvimento e os relacionamentos das subáreasda computação com base nos seus artigos científicos publicados. Os artigos científicoscorrespondem justamente aos tipos de publicações que foram mantidos na subcoleção.

Outra restrição necessária é a de incluir na SubACM-DL-2007 apenas publi-cações que são categorizadas. Como a hierarquia do CCS tem muitas categorias: 11 deprimeiro nível, 81 de segundo nível e 276 de terceiro nível optou-se por utilizar apenas as81 categorias de segundo nível pelas seguintes razões:

• algumas categorias de primeiro nível são muito abrangentes e incluem áreas dis-tintas da computação. Notadamente a categoria D. Software é um bom exemplo,incluindo subáreas que formam categorias individuais, tais como: Linguagens deProgramação, Sistemas Operacionais e Engenharia de Software. Portanto, as cate-gorias de primeiro nível do CCS não seriam apropriadas para o nosso estudo;• as categorias de terceiro e quarto níveis são muito numerosas e muito detalhistas

para serem escolhidas como subáreas a serem consideradas no trabalho. Alémdisso, conforme mostrado na Seção 3.1.1, algumas categorias de primeiro nívelnão possuem subcategorias de terceiro nível;• todas as categorias de primeiro nível possuem categorias de segundo nível. Além

disso, das categorias de segundo nível boa parte correspondem a disciplinas dacomputação e a nomes de áreas de pesquisa em universidades, por exemplo:Sistemas Operacionais (D.4 Operating Systems), Engenharia de Software (D.2

Software Engineering) e Inteligência Artificial (I.2 Artificial Intelligence), o queas tornam mais comuns.

Page 38: Uma análise cienciométrica das subáreas da ciência da computação

3.3 Pré-Processamento 36

Uma publicação que é categorizada na ACM-DL-2008 em uma categoria deterceiro nível (ex. D.3.2) é categorizada na categoria correspondente de segundo nível(ex. D.3) na SubACM-DL-2007. Se a publicação pertence a múltiplas categorias na ACM-DL-2008, ela continua tendo múltiplas categorias na SubACM-DL-2007. As categorias desegundo nível são consideradas como subáreas de pesquisa em computação neste trabalhoe no restante do texto serão referidas pelo termo subárea.

Foram incluídos na subcoleção apenas artigos com data de publicação de 1987a 2007. Devido à pequena quantidade de artigos anteriores a 1987, estes não foramincluídos na SubACM-DL-2007. As publicações do ano de 2008 não foram incluídas,porque apenas parte dos artigos publicados nesse ano estavam disponíveis na coleçãoACM-DL-2008. A Tabela 3.2 resume as principais características da SubACM-DL-2007.

Tabela 3.2: As principais características da SubACM-DL-2007.

Tipo-Publicação Categorias Tipo-Ref. PeríodoProceedings Journal Book 81

Paper Article Chapter de segundo Internas 1987-200774.186 102.556 3.825 nível

Total=180.567

3.3 Pré-Processamento

Nesta seção apresenta-se o pré-processamento realizado para obter a SubACM-DL-2007 a partir da ACM-DL-2008.

A ACM-DL-2008 é formada por 44 arquivos de texto formatados no padrãoXML, totalizando aproximadamente 4,7 Gigabytes. Cada arquivo contém vários registrose cada registro inicia com a tag <START REC> e termina com a tag </START REC>. OCódigo 3.1 mostra um exemplo de registro para uma dada publicação. É possível verificarque os metadados possuem informações das publicações quanto a: título da publicação,autores, páginas, descrição do veículo de publicação, categorias da CCS e referênciasbibliográficas.

Para obter a SubACM-DL-2007 foram utilizadas as seguintes informações dis-poníveis nos registros de uma publicação P na ACM-DL-2008:

BIBNO é o código de identificação única da publicação P. Exemplos de BIBNO encon-trados na base: 1317065 e 97789.

Page 39: Uma análise cienciométrica das subáreas da ciência da computação

3.3 Pré-Processamento 37

PUBTYPE é o tipo da publicação P. Uma publicação pode ser de apenas um tipo,um PUBTYPE. Exemplos de PUBTYPE encontrados na base: Journal Article,

Proceedings Paper e Whole Book.PRICATCODE é a classificação primária em categorias e subcategorias de P com base

no CCS. Uma mesma publicação P, pode ter nenhuma ou várias classificações pri-márias. Estas classificações denotam o conteúdo descrito no documento. Exemplosde PRICATCODE encontrados na base: B.7 e H.2.7.

CATCODE é a classificação secundária de P em categorias e subcategorias com base noCCS. Uma mesma publicação P, pode ter nenhuma ou várias classificações secun-dárias. Estas classificações denotam o conteúdo descrito no documento. Exemplosde CATCODE encontrados na base: C.4 e D.1.3.

PUBYEAR é o ano de publicação de P. Exemplos de PUBYEAR encontrados na base:1988 e 2006.

REF_BIBNO é o número de identificação para as referências citadas pela publicação P, eque também são publicações que constam na ACM-DL-2008 (referências internas).A publicação P pode ter nenhuma ou várias referências internas. O REF_BIBNOpode ser composto pelo BIBNO referenciado e seu WBIBNO, o qual denota emqual veículo a referência foi publicada. Referências com REF_BIBNO vazio sãoreferências externas. Exemplos de REF_BIBNO encontrados na base: 97789 e12130.12143.

Page 40: Uma análise cienciométrica das subáreas da ciência da computação

3.3 Pré-Processamento 38

Código 3.1 Versão simplificada de um registro nos arquivos XML1 <STARTREC>

2 <BIBNO>1298171</BIBNO>

3 <WBIBNO>1298126</WBIBNO>

4 <PUBTYPE>PROCEEDINGS PAPER</PUBTYPE>

5 <TITLE><An efficient bandwidth guaranteed routing for ad hoc networks

6 using ieee 802.11 with interference consideration></TITLE>

7 <AUTHEDIT>

8 <person_id>PP39092014</person_id>

9 <lname><![CDATA[Badis]]></lname>,

10 <fname><![CDATA[Hakim]]></fname>

11 </AUTHEDIT>

12 <GENTERM>Algorithms</GENTERM>

13 <PRICATDESC>

14 Computer Systems Organization

15 </PRICATDESC>

16 <PRICATCODE>C.</PRICATCODE>

17 <PUBYEAR>2007</PUBYEAR>

18 <LANG>ENGLISH</LANG>

19 <PROCSER>International Workshop on Modeling Analysis

20 and Simulation of Wireless and Mobile Systems</PROCSER>

21 <PUBNAME><![CDATA[ACM]]></PUBNAME>

22 <PROCDESC>Proceedings of the 10th ACM Symposium</PROCDESC>

23 <SPAGE>252</SPAGE>

24 <EPAGE>260</EPAGE>

25 <REFERENCES>

26 <REF>

27 <REF_SEQNO>6</REF_SEQNO>

28 <REF_STR><![CDATA[H. Luo, S, Lu and V. Bhargavan. A New Model for

29 Packet Scheduling in Multihop Wireless Networks. Proceedings ACM

30 Mobicom, pages 76--86, Boston, Massachusetts, August 2000.]]>

31 </REF_STR>

32 <REF_BIBNO>345910.345923</REF_BIBNO>

33 </REF>

34 <REF>

35 <REF_SEQNO>7</REF_SEQNO>

36 <REF_STR><![CDATA[J. Hastad, T. Leighton and B. Rogoff.

37 Analysis of backoff Protocols for multiple access Channels.

38 19 annual ACM Conference on

39 Theory of computing, pages 241--253, 1987.]]></REF_STR>

40 <REF_BIBNO>28395.28422</REF_BIBNO>

41 </REF>

42 </REFERENCES>

43 </STARTREC>

Page 41: Uma análise cienciométrica das subáreas da ciência da computação

3.4 Organização Cronológica 39

Como parte deste trabalho foi desenvolvido um script que fez a leitura dosarquivos XML que compõem a ACM-DL-2008 e foram inseridos os dados em um bancode dados relacional, MySQL, o qual corresponde a SubACM-DL-2007. Após a inserçãoforam realizadas validações dos dados com os arquivos XML e com o próprio portal dabiblioteca digital da ACM. Foram implementadas técnicas de otimização como a criaçãode índices e de visões. Devido a essas implementações, o tempo médio para o retornodas consultas envolvendo a ACM-DL-2008 inteira, que antes era de quase uma semana,passou a ser de poucas horas com a SubACM-DL-2007.

3.4 Organização Cronológica

Um análise bibliométrica que leva em consideração o fator tempo é importantepara se compreender a evolução dos objetos de estudo (artigos, revistas indexadas, subá-reas). Quando a análise de uma grande coleção de objetos bibliográficos sob uma deter-minada métrica ocorre sem considerar o fator tempo, tem-se apenas uma visão totalizadada coleção, que omite a percepção de tendências. Por exemplo, no próximo capítulo émostrado, que uma dada subárea da computação (D.3 - Programming Languages) ocupaa décima quarta posição em quantidade total de publicações, considerando-se todas aspublicações em todos os anos. Porém, a referida subárea já esteve em primeiro lugar emquantidade de publicações acumuladas durante a primeira década, a partir de 1987, naSubACM-DL-2007.

A análise das subáreas da computação na SubACM-DL-2007 foi organizadacronologicamente por biênios, para permitir o cálculo da medida fator de impacto a qualse baseia em biênios (ver definição do Fator de Impacto na Seção 2.2.1). Considerou-seos biênios 1987-1988, 1989-1990, e assim por diante, até o biênio 2005-2006. Todasas demais medidas que se baseiam em citações foram computadas em biênios, paraefeito de comparação com a medida fator de impacto. As citações consideradas para umbiênio (ai,ai+1) são somente aquelas feitas por artigos publicados no ano ai+2, citandoartigos publicados no biênio. Portanto, para computar as medidas de citações no biênio(2005,2006) considera-se apenas as citações de artigos publicados em 2007 que citamartigos publicados no referido biênio.

3.5 Medidas Bibliométricas para subáreas

Neste trabalho investigou-se o comportamento das subáreas da computação aolongo dos biênios. A análise se deu sob as seguintes perspectivas:

1. quantidade de publicações nas subáreas;

Page 42: Uma análise cienciométrica das subáreas da ciência da computação

3.5 Medidas Bibliométricas para subáreas 40

2. relacionamento entre as subáreas por meio das citações entre artigos de subáreasdistintas.

Quanto à primeira visão, a medida simples de contar a quantidade de publicaçõesem cada área e em cada biênio foi adotada. Essa análise permite uma visão de quantocada subárea tem se tornado menos ou mais atrativa a autores de artigos em ciência dacomputação.

A segunda perspectiva é avaliada através de medidas relacionadas a citaçõesadaptadas para subáreas. Foram utilizadas adaptações às medidas de quantidade decitações, fator de impacto e PageRank para a computação de valores dessas medidas paracada subárea em cada biênio. Também foi utilizada a diversidade, uma medida propostaem [60] que analisa o quanto uma subárea recebe citações de subáreas distintas. Antesda apresentação de cada medida, serão apresentadas algumas definições básicas que sãousadas nas definições das medidas.

3.5.1 Definições básicas

Seja S = {S1,S2, . . . ,S81} o conjunto de subáreas da ciência da computação daSubACM-DL-20071. Neste trabalho, considera-se cada subárea Si de S como um conjuntode artigos que foram categorizados na subárea Si, isto é, Si = {a1,a2, . . . ,a|Si|}, onde ai,1 ≤ i ≤ |Si|, é um artigo da subárea Si. Como cada artigo a pode ser classificado emmais de uma subárea, tal artigo pode pertencer a mais de um conjunto de S . Ou seja, osartigos são replicados nas categorias as quais pertencem. Esse modelo de subárea comoum conjunto de artigos facilita a adaptação de medidas de citações entre subáreas combase em citações entre artigos como será mostrado nas próximas seções.

Dado que artigos citam uns aos outros, os artigos da SubACM-DL-2007 definemum grafo de citações. Cada artigo corresponde a um vértice do grafo e cada citação entreartigos corresponde a um arco desse grafo.

Um grafo de citações entre subáreas é um grafo G = (V ,E), onde V é oconjunto de vértices e E é o conjunto de arcos de G . O conjunto de vértices V é definidocomo V = {v1,v2, . . . ,v|S |}, onde cada vértice vi, 1 ≤ i ≤ |S | representa a uma subáreaSi ∈ S . O conjunto de arcos E é definido como E = {(vi,v j)|vi,v j ∈ V , i 6= j e ∃ a,b :a cita b,a ∈ Si,b ∈ S j}, onde a e b são artigos quaisquer da SubACM-DL-2007. Assim,existe um arco direcionada com origem em um vértice vi e como destino v j, se existir pelomenos um artigo da subárea Si que cita um artigo da subárea S j. A cada arco (vi,v j) estáassociado um peso w : E →N definido como o número de citações de artigos em Si feitasa artigos de S j.

1Consideram-se neste trabalho as 81 categorias de segundo nível do CCS como as subáreas dacomputação.

Page 43: Uma análise cienciométrica das subáreas da ciência da computação

3.5 Medidas Bibliométricas para subáreas 41

As seguintes observações a respeito de um grafo de citações entre subáreas sãorelevantes:

• não existem auto-citações nesse grafo, uma vez que todo arco (vi,v j) do grafo, é talque i 6= j.• uma citação entre dois artigos pode corresponder a mais de um arco entre vértices

correspondentes subáreas no grafo de citações entre subáreas.

A segunda observação acima se deve ao fato de que um mesmo artigo podepertencer a mais de uma subárea e pode citar outro artigo que, por sua vez, pode pertencera várias subáreas. Por exemplo, seja um artigo a que pertence às subáreas S1 e S2, e a citao artigo b que pertence a S1, S3 e S4. Pela definição do grafo de citações, a citação de a

a b garante a existência de cinco arcos entre as subáreas acima: (v1,v3), (v1,v4), (v2,v1),(v2,v3) e (v2,v4). Os vértices v1,v2,v3 e v4 correspondem, respectivamente às subáreasS1,S2,S3 e S4. A citação entre a e b contribui com valor um no peso de cada uma dosarcos

Dado o grafo de citações entre subáreas, define-se um grafo bienal de subáreas

para o biênio (A,A+1) como um grafo de citações entre subáreas GA,A+1 =(V ,E(A,A+1)),em que o conjunto de arcos E(A,A+1) é definido como E(A,A+1) = {(vi,v j)|vi,v j ∈ V , i 6=j e ∃ a,b : a cita b,a ∈ Si,b ∈ S j}, onde a é um artigo publicado no ano A+ 2 e b é umartigo publicado nos ano A ou no ano A+1. A cada arco (vi,v j)∈E(A,A+1) está associadoum peso w : E(A,A+1) → N que corresponde ao número de citações entre artigos a ∈ Si

e b ∈ S j que satisfazem restrição quanto aos anos de publicação dada na definição deE(A,A+1).

Por exemplo, considere duas subáreas fictícias Sx e Sy. No grafo bienal para obiênio de 1987-1988 existe um arco entre os vértices vx e vy, se existir pelo menos umapublicação da subárea Sx, do ano de 1989 que cita alguma publicação da subárea Sy quetenha sido publicada em 1987 ou 1988. O peso deste arco é dado pelo número de citaçõesde artigos de Sx publicados em 1989 e que citam artigos de Sy publicados nos dois anosanteriores.

A seguir, são apresentadas as medidas de citações entre subáreas definidas sobreo grafo bienal de subáreas para um determinado biênio A,A+1.

3.5.2 Quantidade de citações aplicada a subáreas

Dado o grafo bienal G(A,A+1) = (V ,E(A,A+1)), a medida quantidade de citações

de um vértice VS ∈ V que corresponde a uma subárea S ∈ S para o biênio (A,A+ 1) é

Page 44: Uma análise cienciométrica das subáreas da ciência da computação

3.5 Medidas Bibliométricas para subáreas 42

denotada por #cit(A,A+1)(v) e definida por:

#cit(A,A+1)(vS) =|S |

∑i=1

w(ui,vS), (3-1)

onde (vi,vS)∈E(A,A+1). Essa medida corresponde ao total de citações recebidas por todosartigos da subárea S durante o biênio (A,A+1), oriundas de artigos das demais subárease que foram publicados no ano A+2.

3.5.3 Fator de impacto aplicado a subáreas

O fator de impacto, conforme apresentado na Seção 2.2.1 é uma medida tradi-cionalmente utilizada para medir a importância de revistas indexadas (journals). O fatorde impacto é uma medida calculada para cada ano e corresponde a uma medida de comoo número de citações feitas por artigos de revistas publicadas em um ano A se distribuientre as publicações em revistas publicadas nos dois anos anteriores.

O fator de impacto pode ser facilmente adaptado para considerar subáreas em vezde revistas indexadas. Dado um grafo bienal G(A,A+1) = (V ,E(A,A+1)) fator de impactopara um vértice vS ∈V , correspondente a uma subárea S ∈ S para um biênio (A,A+1), édefinido por:

FI(A,A+1)(vS) =#cit(A,A+1)(vS)

#pubA(S)+#pubA+1(S), (3-2)

onde #pubA(S) corresponde ao número de publicações da subárea S no ano B.

3.5.4 PageRank Ponderado aplicado a subáreas

É necessário fazer adaptações no cálculo original do PageRank para que essamedida possa ser utilizada com subáreas. Abaixo repete-se a Equação 2-2, apresentada naSeção 2.2.2 que descreve o cálculo do PageRank entre páginas da Web.

PR(P) = (1−d)+dn

∑i=1

PR(Pi)

C(Pi)

A definição do PageRank acima, considera que o prestígio é igualmente distri-buído entre todas as citações entre páginas da web. Esta suposição é adequada, uma vezque as citações (hyperlinks) não têm peso, isto é, todos os links indicam um mesmo va-lor de relacionamento entre os pares de páginas conectados por eles. No caso de grafode citações entre subáreas e grafos bienais de citações entre subáreas as arestas não têmo mesmo peso. Portanto, a equação do PageRank quando aplicada a esses grafos deveser adaptada para levar em consideração o peso da aresta na transferência dos valores de

Page 45: Uma análise cienciométrica das subáreas da ciência da computação

3.5 Medidas Bibliométricas para subáreas 43

PageRank entre as subáreas. De fato, se uma subárea Si possui 10 vezes mais citações àsubárea S j do que as demais subáreas, o valor de prestígio (PageRank) transferido de vi

para v j deve ser 10 vezes maior.Aqui é apresentada uma solução semelhante à que foi adotada em [22] para

computar o PageRank de revistas indexadas. Considere o grafo bienal G(A,A+1) =

(V ,E(A,A+1)). Dado um arco (vi,v j)∈E(A,A+1), define-se propagação proporcional entrevi e v j como 3-3:

p(vi,v j) =w(vi,v j)

∑|V |k=1 w(vi,vk)

. (3-3)

A propagação proporcional pode ser utilizada na equação do PageRank para queseja levada em conta a transmissão do prestígio de uma subárea de forma relativa aospesos de seus arcos nos grafos bienais. Para qualquer vértice vi, a somatória de p(vi,v j),0≤ j ≤ |V |, resulta no valor um, e portanto, p(vi,v j) pode ser utilizado para determinara fração do PageRank da subárea correspondente a vi que é transferida para cada subáreacitada por vi. Dado que não há citações de uma área para ela mesma, p(vi,vi) = 0,∀vi ∈V .

A fórmula do PageRank que utiliza a propagação proporcional é denominadaPageRank Ponderado por Bollen et al. [22]. Essa denominação é mantida neste trabalho.O PageRank Ponderado para um vértice vi de V é denotado por PR(A,A+1)(vi) e é definidopela fórmula 3-4:

PR(A,A+1)(vi) = (1−d)+d ·|V |

∑j=1

PR(A,A+1)(v j) · p(vi,v j) (3-4)

3.5.5 Medida de diversidade

As medidas fator de impacto e quantidade de citações recebidas visam aferir apopularidade de cada subárea. Entretanto, ambas não medem se a popularidade de umadeterminada subárea S é focada ou se é diversificada, em relação às demais subáreas. Porexemplo, S pode ter um total de 50 citações, mas a maioria delas é feita por artigos de umamesma subárea Sy (popularidade focada em Sy). Por outro lado, as 50 citações recebidaspor S podem ser igualmente distribuídas em um conjunto de subáreas (popularidadediversificada). Mann et al. [60] propuseram a medida diversidade para aferir o grau dediversificação das citações a uma determinada subárea.

Dado um grafo bienal G(A,A+1) = (V ,E(A,A+1)) e um vértice u ∈ V , define-se adistribuição de citação Pu como:

Pu(v) =w(v,u)

#cit(A,A+1)(u), (3-5)

isto é, a probabilidade de u receber citação de v. A diversidade da subárea correspondente

Page 46: Uma análise cienciométrica das subáreas da ciência da computação

3.5 Medidas Bibliométricas para subáreas 44

ao vértice u de V é a entropia dessa distribuição:

diversidade(u) =− ∑v∈V

Pu(v) · log(Pu(v)) (3-6)

Quanto maior a diversidade de u, maior a tendência das citações a u virem demuitas subáreas.

Page 47: Uma análise cienciométrica das subáreas da ciência da computação

CAPÍTULO 4Análise temporal de subáreas da ciência dacomputação

Neste capítulo são apresentados os resultados da aplicação das medidas biblio-métricas, descritas no Capítulo 3, às subáreas da computação. Inicialmente, na Seção 4.1é mostrado o quantitativo das publicações utilizadas no estudo ao longos dos anos, biênioa biênio. A Seção 4.2 apresenta os resultados para a medida de quantidade de citações re-cebidas por cada subárea. A Seção 4.3 discute as limitações da medida Fator de Impactona análise bibliométrica de subáreas. A Seção 4.4 mostra os resultados da adaptação damedida PageRank para uso com subáreas. A Seção 4.5 discute as limitações da medidaDiversidade na análise cronológica de subáreas.

Todos os resultados obtidos nas seções deste capítulo foram calculados com basena coleção SubACM-DL-2007, definida na Seção 3.2.

4.1 Quantidade de publicações

Nesta seção são apresentados os dados quanto à quantidade de publicaçõespor subáreas. O gráfico da Figura 4.1 mostra o número acumulado de publicações porsubárea nos 10 biênios considerados. As subáreas aparecem em ordem decrescente donúmero acumulado de publicações em todos os biênios. Observa-se que a distribuiçãodo total acumulado de publicações em subáreas é discrepante principalmente após as 30primeiras subáreas. Aproximadamente, as trinta primeiras subáreas possuem o númerode publicações acima da média (4.377). O número de publicações nas subáreas restantesdiminui rapidamente em relação à média.

Page 48: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 46

Figu

ra4.

1:Q

uant

idad

ede

publ

icaç

ões

por

subá

rea.

Page 49: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 47

Dada essa característica, consideramos apenas as 30 subáreas com maior númerode publicações acumulado ao longo dos biênios. Essas subáreas e suas publicações porbiênio são mostradas na Tabela 4.1.

Tabela 4.1: Quantidade de publicações das subáreas por biênio.

# Subárea 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Total1988 1990 1992 1994 1996 1998 2000 2002 2004 2006

1 I.2 634 878 674 679 914 1643 1908 4001 5305 7045 236812 F.2 384 776 865 1073 1096 1309 1229 2511 3927 5427 185973 G.1 281 442 425 472 585 1006 973 3406 5110 5376 180764 C.2 355 470 470 660 937 1404 1377 2628 3695 5623 176195 H.5 77 44 638 908 1303 1582 1711 2145 3481 4859 167486 D.2 738 1004 862 932 1256 1329 1325 2182 2835 4202 166657 G.2 320 600 485 781 883 1267 1261 2195 3101 2822 137158 H.3 237 236 217 300 566 954 1182 2433 3275 4121 135219 D.3 918 981 1063 1185 1121 1012 1090 1459 1710 1862 1240110 H.2 481 555 501 645 704 996 1246 1830 2285 2378 1162111 C.4 507 390 498 462 608 1441 976 1154 1324 2501 986112 I.6 323 232 502 388 559 989 1012 1297 1602 2862 976613 I.3 325 405 343 409 650 986 1021 1459 1840 2235 967314 D.4 433 572 474 567 743 804 980 1366 1692 1931 956215 I.5 118 165 216 106 222 640 763 1309 2381 3341 926116 K.6 317 281 327 410 642 835 1010 1090 1600 2277 878917 F.1 296 554 458 589 670 803 591 1213 1474 1691 833918 I.4 138 228 226 124 281 653 701 1273 1851 2377 785219 B.7 285 262 405 293 489 726 870 1082 1528 1590 753020 C.1 498 568 566 508 445 639 584 942 1268 877 689521 G.3 112 148 218 219 217 339 465 1222 1821 1990 675122 H.1 263 360 320 450 618 637 602 896 1059 1357 656223 K.3 249 204 254 325 432 441 429 783 1040 1547 570424 D.1 175 386 471 589 618 587 556 621 715 798 551625 J.2 92 111 109 143 197 312 404 1446 1546 994 535426 F.4 184 317 255 283 251 259 266 1005 1311 1115 524627 K.4 46 77 110 178 237 350 472 874 1249 1330 492328 H.4 155 146 194 203 342 409 369 719 941 1382 486029 C.3 57 57 76 50 168 322 422 735 830 1214 393130 B.8 52 2 0 3 16 471 612 614 841 1265 3876

Os valores de quantidade de publicações que aparecem em negrito na tabela emuma linha, correspondente a uma dada subárea S, são valores que estão acima da médiado número de publicações na subárea S pelo acumulado de todos biênios.

A subárea mais populosa é a I.2 - Artificial Intelligence, a qual possui umtotal de 23.681 publicações para o período determinado como estudo, número bastanterepresentativo se comparado a diferença com a segunda subárea que possui 18.597, F.2

- Analysis of Algorithms and Problem Complexity, e com as demais até a sexta posiçãoque diminuem gradativamente. Ressaltando, que apesar da subárea I.2 estar presente entreas mais populosas desde a década de 80, teve um crescimento vertiginoso em relação àsdemais subáreas a partir do final da década de 90.

Page 50: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 48

As subáreas D.3 - Programming Languages e D.2 - Software Engineering

alternavam entre si para as duas primeiras posições na segunda metade da década de 80e em boa parte da década de 90. Entretanto, a partir do final da década de 90, a variaçãode crescimento dessas subáreas foi menor que as demais e ficaram menos populares queoutras subáreas, como I.2, C.2 - Computer-Comunication Networks e G.1 - Numerical

Analysis, embora tenham permanecido entre as 10 mais populosas.Apenas as subáreas das categorias de primeiro nível A - General e E - Data não

estão presentes nesta ordenação das 30 subáreas com maior quantidade de publicações.A primeira subárea de E em número de publicações é a E.4 - Coding and Information

Theory na posição 40, e a primeira de A é A.1 - Introductory and Survey, na posição 55,de um total de 81 subáreas.

De forma contrária, as áreas H e I são maioria na classificação, representadaspor 5 subáreas cada uma. C e D em segundo lugar de quantitativo de subáreas possuemquatro na listagem, sendo ambas pelos subníveis de .1 a .4.

As subáreas de F - Theory of Computation, G - Mathematics of Computing e K -

Computing Milieux são representadas três vezes, sendo que F.2 - Analysis of Algorithms

and Problem Complexity e G.1 - Numerical Analysis, são respectivamente a segunda eterceira colocadas na ordenação geral. A primeira subárea de K aparece apenas na posição16, com K.6 - Management of Computing and Information Systems.

Por fim, a área B é representada pelas subáreas B.7 - Integrated Circuits, B.8 -

Perfomance and Reliability, e J unicamente por J.2 - Physicial Sciences and Engineering.A Tabela 4.1 mostra que:

a) o número de publicações nas 30 subáreas cresce ao longo dos anos;b) há um aumento significativo do número de publicações, na maioria das 30 subáreas,

a partir do final da década de 90 - valores acima da média tendem a se concentrarapós a década de 90;

c) existem algumas variações no crescimento de determinadas subáreas, notadamenteentre o grupo de biênios até o final da década de 90 e o grupo de biênios restantes.

A observação do item c é menos perceptível na Tabela 4.1, mas constata que aordenação das subáreas por número de publicações nos biênios até o fim da década de 90é distinta da ordenação correspondente nos biênios posteriores. Para visualizar melhor arelação entre as subáreas quanto ao número de publicações ao longo do tempo, os biêniosforam separados em dois períodos:

a) Período formado pelos últimos cincos biênios (1997-2006);b) Período formado pelos cinco biênios imediatamente anteriores (1987-1996).

Em seguida, ordenamos as 30 subáreas em ordem decrescente por número depublicações. Foram geradas duas ordenações: uma para o período 1987-1996 e outra para

Page 51: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 49

o período 1997-2006. A partir das duas ordenações, computou-se para cada subárea S adiferença entre as posições de S, respectivamente, nas ordenações 1987-1996 e 1997-2006. A Tabela 4.2 mostra as diferenças entre as posições nas ordenações nos doisperíodos considerados.

Tabela 4.2: Tabela comparativa de ordenações da quantidade depublicações das subáreas por grupos de cinco biênios(década).

Subárea Dif. Posições nas OrdenaçõesTotal 1987-1996 1997-2006

I.5 20 15 30 10B.8 16 30 44 28H.3 14 8 20 6I.4 13 18 28 15G.1 12 3 14 2J.2 12 25 33 21G.3 11 21 29 18C.3 10 29 39 29K.4 10 27 34 24I.6 6 12 17 11C.2 4 4 7 3I.2 3 1 4 1I.3 3 13 15 12K.6 2 16 18 16H.5 1 5 6 5B.7 0 19 19 19C.4 -1 11 12 13F.2 -1 2 3 4H.2 -1 10 8 9H.4 -1 28 26 27F.4 -3 26 23 26G.2 -3 7 5 8K.3 -4 23 21 25D.2 -5 6 2 7H.1 -6 22 16 22D.4 -8 14 9 17F.1 -9 17 11 20C.1 -13 20 10 23D.3 -13 9 1 14D.1 -17 24 13 30

A média do módulo das diferenças entre as posições nas ordenações correspon-dentes aos dois períodos é 7,4. Assim, a Tabela 4.2 está dividida em três partes. Naspartes extremas se encontram as subáreas cujos módulos das diferenças entre as posiçõesda ordenação correspondente a 1987-1996, e as posições da ordenação correspondentea 1997-2006, são superiores à média. A parte superior corresponde à diferença positivaacima da média, ou seja é formada por subáreas que subiram acima da média entre o pe-ríodo de 1987-1996 e o período de 1997-2006. A parte inferior contém as subáreas quedecaíram acima do valor da média entre o período de 1987-1996 e o período de 1997-

Page 52: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 50

2006. Na parte do meio da Tabela 4.2 estão as subáreas que possuem valores absolutosdas diferenças das suas posições nas ordenações próximos ou até iguais à média.

A parte superior da Tabela 4.2 mostra o quanto algumas subáreas têm crescidoem número de publicações nos últimos biênios até 2006. A subárea I.5 - Pattern Recog-

nition foi a que mais mudou de posição em termos de números de publicação, saindo da30a posição para a 10a posição. A subárea G.1 - Numerical Analysis subiu doze posições,passando a ficar na segunda posição na ordenação 1997-2006. Notadamente devido aoaumento de publicações em otimização (subárea de terceiro nível: G.1.6). A subárea H.3

- Information Storage and Retrieval também teve um aumento no número de publicações,principalmente com as publicações em processamento e ordenação de consultas na web(subárea de terceiro nível: H.3.3), fazendo com que essa subárea estivesse na sexta posi-ção na ordenação de 1987-2006 e oitava posição na ordenação correspondente ao total depublicações.

As subáreas B.8 - Performance and Reliability da área B - Hardware, I.4 - Image

Processing and Computer Vision da área I - Computing Methodologies, J.2 - Physical

Sciences and Engineering da área J - Computer Applications, G.3 - Probability and

Statistics da área G - Mathematics of Computing, C.3 - Special-Purpose and Application-

based Systems da área C - Computer Systems Organization e K.4 - Computer and Society

da área K - Computing Milieux também aumentaram de posição na ordenação acimada média, entretanto continuaram abaixo das 10 primeiras posições na ordenação total.Contudo, o crescimento dessas subáreas foi bem acima da média, o que indica que elassão tendências a se tornarem mais populares entre os autores. As tendências podem seragrupadas nos seguintes assuntos de crescente interesse:

• proposição na área de hardware de mecanismos que aumentem o desempenho dosmais variados componentes computacionais (memória, processamento), tanto noaspecto de eficiência quanto no de economia de energia - subárea B.8;• interação da computação com outras áreas e com a sociedade em geral - subáreas

J.2, C.3 e K.4;• processamento digital de vídeos e imagens, visão robótica e também suas aplicações

em outras áreas científicas, como: diagnóstico médico em medicina - subárea I.4;• melhoria de técnicas matemáticas que dão suporte a algoritmos e heurísticas às

demais áreas da computação - subáreas G.1 e G.3.

Considerando as subáreas cujas posições nas ordenações correspondentes aos pe-ríodos 1987-1996 e 1997-2006 sofreram alterações próximos à média (parte intermediáriada Tabela 4.2). Destaca-se a subárea: I.2 - Artificial Inteligence que ocupa a primeira po-sição na ordenação total e no período 1997-2006. A subárea de análise e complexidadede algoritmos, F.2 - Analysis of Algorithms and Problem Complexity, ocupa a segunda

Page 53: Uma análise cienciométrica das subáreas da ciência da computação

4.1 Quantidade de publicações 51

posição na ordenação total e desceu apenas para quarta posição no período 1997-2006. Asubárea de redes de computadores C.2 - Computer Networks ocupa a quarta posição naordenação total e a terceira, no período 1997-2006. Já a subárea relacionada a interaçãohomem-computador, H.5 - Information Interfaces and Presentation, se manteve estávelao longo dos anos, variando entre a quinta e a sexta posições nas ordenações. A subáreade matemática discreta, G.2 - Discrete Mathematics, caiu da quinta posição no período1987-1996 para a oitava posição no período 1997-2006, embora esta variação de posiçãoesteja dentro da média. Algo semelhante ocorre com a subárea de engenharia de soft-

ware, D.2 - Software Engineering. Entretanto, essa subárea ocupava a segunda posição naordenação 1987-1996 e mudou para a sétima posição no período seguinte.

Na parte inferior da Tabela 4.2 destaca-se a subárea de linguagens de programa-ção, D.3 Programming Languages, que estava em primeiro lugar no número de publica-ções no período 1987-1996 e caiu para décima quarta posição na ordenação correspon-dente ao período seguinte, uma variação quase igual ao dobro da média das variações.De modo semelhante, a subárea de sistemas operacionais, D.4 - Operating Systems, temdiminuído seu crescimento ao longo dos anos. Subáreas não tão populares em 1987-1996,diminuíram ainda mais suas posições na ordenação no período seguinte: a subárea teóricade máquinas abstratas, F.1 - Computation by Abstract Device, a subárea de arquitetura decomputadores, C.1 - Processor Architectures e a subárea técnicas de programação, D.1 -

Programming Techiniques.Analisando-se as subáreas que possuem maior número de publicações acumu-

ladas nos biênios e também as que mais aumentaram suas posições na ordenação 1997-2006, observa-se um fenômeno interessante: algumas subáreas fundamentais da compu-tação, especificamente de cunho teórico e matemático estão ainda em grande processoevolutivo. Esse fenômeno pode ser percebido pelo volume de publicações cientificas nes-sas áreas, igualando e em muitos casos superando a produção em subáreas de tecnologiae aplicação. Esse é o caso das subáreas F.2, G.1, G.2 e G.3. Essa constatação é impor-tante, pois mostra que a base na qual se apoia a computação, já sólida, com algoritmos eferramentas matemáticas definidas e muito utilizadas nas demais subáreas, ainda fomentamuita pesquisa e se encontra em grande expansão.

Por outro lado, algumas áreas tecnológicas, principalmente aquelas relacionadasa software básico, estão sofrendo uma diminuição substancial no crescimento de suaprodução. Notadamente, as subáreas de técnicas de programação (D.1), linguagens deprogramação (D.3) e sistemas operacionais (D.4) encontram-se nessa situação.

Page 54: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 52

4.2 Resultados da medida quantidade de citações

Esta seção apresenta os resultados relacionados à quantidade de citações rece-bidas por cada vértice do grafo bienal G(A,A+1)) = (V ,E(A,A+1)) para um dado biênio(A,A+ 1). Essa medida é computada pela fórmula 3-1, definida na Seção 3.5.2. O grá-fico da Figura 4.2 mostra o número acumulado de citações recebidas por cada subáreanos 10 biênios considerados. Observa-se que a distribuição da quantidade total de cita-ções recebidas pelas subáreas novamente é discrepante para as 30 primeiras subáreas. Demodo semelhante ao ocorrido na Seção 4.1, as 30 primeiras subáreas tiveram o númerode citações acima da média (4.859).

Page 55: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 53

Figu

ra4.

2:Q

uant

idad

ede

cita

ções

por

subá

rea.

Page 56: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 54

De forma semelhante ao que foi apresentado na Seção 4.1, consideramos apenasas 30 subáreas com maiores quantidades de citações recebidas ao longo dos 10 biênios.Essas subáreas com suas respectivas quantidades de citações recebidas por biênio sãomostradas na Tabela 4.3.

Tabela 4.3: As 30 subáreas com maior número de citações recebi-das por biênio.

# Subárea 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Total1988 1990 1992 1994 1996 1998 2000 2002 2004 2006

1 C.2 510 975 708 983 1729 1971 1691 3073 3454 4564 196582 D.2 1049 1783 1372 1157 1660 1515 1509 2050 2800 3891 187863 I.2 691 824 603 764 1113 1725 2066 2932 3513 4284 185154 D.3 1460 1691 1603 1937 2200 1799 1721 1468 1868 2631 183785 H.5 227 53 1592 1751 1957 1856 2011 2256 2825 3572 181006 F.2 568 1146 1179 1701 2029 1700 1442 2534 2315 3399 180137 C.4 975 828 832 1016 1185 3206 2067 1713 1464 2429 157158 H.3 384 573 486 468 1043 1496 1654 2744 3142 3540 155309 D.4 978 1153 1216 857 1499 1254 1605 1821 2340 2173 1489610 G.2 435 1060 607 1411 1531 1694 1813 1548 1735 1715 1354911 H.2 922 674 677 576 1121 1219 1530 2266 2369 2191 1354512 C.1 900 1432 1266 1294 1091 1589 829 1187 1233 1231 1205213 G.1 375 553 421 779 1031 1127 1112 1514 1974 2774 1166014 I.3 517 811 631 827 1260 1147 1493 1637 1528 1274 1112515 F.1 576 1096 663 984 1241 1394 767 981 955 1078 973516 H.1 346 866 610 647 885 797 885 1162 1328 1592 911817 B.7 190 240 228 515 914 1157 1728 1192 1785 986 893518 K.6 464 359 296 308 529 1211 1184 1152 1381 1865 874919 D.1 511 1041 956 968 1222 717 512 705 821 1045 849820 I.6 161 241 292 537 701 1096 1207 1115 1146 1694 819021 I.5 113 149 73 63 305 779 813 1205 1424 2313 723722 I.4 218 202 158 198 685 606 870 1022 1240 1503 670223 F.3 435 653 515 713 822 674 492 531 573 980 638824 H.4 344 430 589 344 614 550 373 849 1033 1235 636125 G.3 81 221 243 411 400 396 606 767 1247 1488 586026 B.3 397 832 530 684 764 542 718 453 386 361 566727 B.8 62 2 0 4 13 928 1427 931 1081 851 529928 K.4 45 169 228 123 185 242 570 1011 1082 1460 511529 F.4 447 392 362 367 439 490 381 626 636 806 494630 J.6 206 288 339 143 293 969 1347 830 300 191 4906

Os valores de quantidade de citações que aparecem em negrito em uma determi-nada linha da tabela são valores acima da média da subárea correspondente a esta linha.

A subárea C.2 - Computer-Communication Networks é a que possui maior quan-tidade de citações recebidas, 19.658 citações. Em 2002, a subárea C.2 teve um cresci-mento considerável, duplicando a sua quantidade de citações recebidas, se comparadaao biênio de 200-2001, e mantendo assim, após este aumento, o índice acima de 3.000citações por biênio.

Percebe-se que as seis subáreas no topo da tabela possuem número de total decitações recebidas superior a 18.000. A partir dessa posição, a quantidade total de citações

Page 57: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 55

por subárea decresce rapidamente.Semelhante ao mostrado na ordenação por quantidade de publicações, apenas as

áreas A - General e E - Data não estão presentes na ordenação da Tabela 4.3. A primeirasubárea de E em número de publicações é a E.1 na quadragésima posição, e a primeira deA é A.1 - Introductory and Survey, na quinquagésima primeira posição.

As áreas H e I possuem maior número de subáreas na ordenação da Tabela 4.3,sendo representadas por cinco subáreas cada uma. As áreas D e F, em segundo lugarde quantitativo de subáreas, possuem quatro subáreas entre as 30 com maior número decitações. As subáreas de B, C e G são representadas três vezes, sendo que C.2 lidera otopo da ordenação e não há nenhuma subárea de B e G entre as 10 mais citadas. A áreaK. - Computing Milieux é representada pelas subáreas K.4 - Computer and Society e K.6 -

Management of Computing and Information Systems, e a área J. - Computer Applications

é unicamente representada por J.6 - Computer-Aided Engineering.Observa-se na Tabela 4.4 que os valores acima da média tendem a ocorrer nos

últimos cinco biênios da tabela, embora essa tendência seja menos forte do que no caso daTabela 4.1 que trata do número de publicações. Optou-se, portanto, por agrupar os biêniosde forma semelhante ao estudo da quantidade de publicações, mostrado na Seção 4.1. Ouseja, para cada subárea, totalizou-se a quantidade de citações nos biênios que formam operíodo de 1987-1996 e o mesmo foi feito para o período 1997-2006. Essa totalização foifeita do seguinte modo no período de 1987-1996:

• cinco grafos bienais de subáreas são gerados para cada um dos cinco biênios noperíodo 1987-1996:

1. G(1987,1988) = (V ,E(1987,1998)),2. G(1989,1990) = (V ,E(1989,1990)),3. G(1991,1992) = (V ,E(1991,1992)),4. G(1993,1994) = (V ,E(1993,1994)),5. G(1995,1996) = (V ,E(1995,1996));

• para cada vértice vx, correspondente a uma subárea X que ocorre entre as 30subáreas da Tabela 4.3, obteve-se o total de citações recebidas por vx, no período,denotado por tot_cit(1987,1996) e definido como: tot_cit(1987,1996) = #cit(1987,1988)+

#cit(1989,1990)+#cit(1991,1992)+#cit(1993,1994)+#cit(1995,1996).

Procedimento semelhante foi utilizado para obter o total de citações para cadasubárea na Tabela 4.3 no período 1997-2006. Em seguida, foram geradas duas ordenações,uma para cada cada período, em ordem decrescente do número total de citações. A Tabela4.4 mostra as mesmas 30 subáreas mostradas na Tabela 4.3 e suas posições na ordenaçãototal (Tabela 4.3), e nas ordenações nos dois períodos. A coluna Dif. da Tabela 4.4 mostra

Page 58: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 56

a diferença entre a posição na ordenação 1987-1996 e a posição na ordenação 1997-2006, para cada subárea. A média m dos valores absolutos dessa coluna foi computada.As subáreas cujas diferenças de posição ficaram acima de m, aparecem em destaque naparte superior da tabela. De modo análogo, as subáreas cujos valores das diferenças sãoinferiores a −m aparecem em destaque na parte inferior da tabela.

Tabela 4.4: Tabela comparativa de ordenações do número de cita-ções recebidas acumuladas nos biênios das subáreaspor década.

Subárea Dif. Posições nas OrdenaçõesTotal 1987-1996 1997-2006

B.8 39 27 60 21I.5 24 21 40 16H.3 16 8 19 3K.4 13 28 37 24I.2 11 3 13 2K.6 9 18 24 15I.6 8 20 25 17C.2 7 1 8 1B.7 7 17 21 14I.4 7 22 27 20H.2 6 11 14 8G.1 5 13 17 12G.3 5 25 28 23H.5 2 5 6 4C.4 2 7 9 7J.6 1 30 30 29I.3 -1 14 12 13K.3 -2 28 26 28D.2 -3 2 2 5F.2 -3 6 3 6G.2 -4 10 7 11H.1 -4 16 15 19D.4 -5 9 5 10H.4 -5 24 20 25D.3 -8 4 1 9F.4 -9 29 23 32F.1 -11 15 11 22F.3 -13 23 18 31C.1 -14 12 4 18D.1 -17 19 10 27B.3 -19 26 16 35

A separação da Tabela 4.4 em três partes, conforme explicado acima, traz in-formações importantes sobre o crescimento (ou decaimento) de popularidade de algumassubáreas com o tempo. A parte superior da Tabela 4.4 mostra o quanto algumas subáreastêm crescido em número de citações nos últimos biênios até 2006. É interessante ressal-tar que das cinco subáreas que estão no topo da tabela, apenas I.2 e H.3 estão entre as10 mais citadas no período 1997-2006. As demais estavam em posições mais inferiores

Page 59: Uma análise cienciométrica das subáreas da ciência da computação

4.2 Resultados da medida quantidade de citações 57

nesse período, e em posições mais inferiores ainda, na ordenação 1987-1996. Entretanto,os valores da coluna Dif. mostram o grande crescimento na quantidade de citações rece-bidas por essas subáreas no último período considerado. As subáreas no topo da Tabela4.4 e seus respectivos nomes são apresentados na Tabela 4.5.

Tabela 4.5: Nomes das cinco subáreas que mais ganharam posi-ções entre as ordenações 1987-1996 e 1997-2006.

B.8 - Performance and reliabilityI.5 - Pattern recognitionH.3 - Information storage and retrievalK.4 - Computer and SocietyI.2 - Artificial Intelligence

A parte inferior da Tabela 4.4 contém as subáreas cujas diferenças de posiçãosão as mais negativas. Estas subáreas estão com forte tendência de queda de popularidadeentre as demais subáreas. Em destaque a subárea C.1 que mudou da quarta posição naordenação 1987-1996 para a 18a posição na ordenação 1997-2006. A Tabela 4.6 mostra onome dessas subáreas.

Tabela 4.6: Nomes das cinco subáreas que mais perderam posi-ções entre as ordenações 1987-1996 e 1997-2006.

F.1 - Computation by abstract devicesF.3 - Logics and meanings of programsC.1 - Processor architecturesD.1 - Programming techniquesB.3 - Memory structures

Na parte central da Tabela 4.4 encontra-se as subáreas cujas variações de posi-ções nas ordenações 1987-1996 e 1997-2006 tem número de citações próximos do valorda média. É importante destacar que das cinco primeiras posições no período de 1987-1996: D.3 - Programming Languages, D.2 - Software Engineering, F.2 - Analysis of algo-

rithms and problem complexity, C.1 - Processor Architectures e D.4 - Operating Systems,apenas a subárea D.2 se manteve entre as cinco primeiras quando avaliado o períodode 1997-2006. Contudo, a subárea D.2 está em tendência de queda no número de ci-tações. Algumas dessas subáreas correspondem a áreas básicas em computação, como:F.2 da área de algoritmos, D.3 da área de linguagens de programação e D.4 de sistemasoperacionais. A subárea F.2 é fundamental para o desenvolvimento das demais subáreas,entretanto, tendem a ser menos citadas em relação a outras subáreas a partir do período1997-2006.

Em relação especificamente às subáreas de fundamentação teóricas, percebemostendências opostas. Enquanto subáreas de teoria da computação (subáreas da categoria F),tiveram menos citações que outras (veja as subáreas F.2, F.1 - Computation by Abstract

Devices, F.3 - Logics and Meaning of Programs e F.4 - Mathematical Logic and Formal

Page 60: Uma análise cienciométrica das subáreas da ciência da computação

4.3 Resultados do cálculo do fator de impacto 58

Languages, com valores negativos na coluna Dif. da Tabela 4.4), algumas subáreas damatemática se aproximaram mais do topo na ordenação em 1997-2006, principalmenteG.1 - Numerical Analysis e G.3 - Probability and Statistics.

4.3 Resultados do cálculo do fator de impacto

Nesta seção são apresentados os resultados obtidos pelo fator de impacto propor-cionado pelas subáreas. Conforme demonstrado na Seção 2.2.1, a medida fator de impactofoi desenvolvida pata tentar evidenciar a relevância de um determinado periódico com re-lação aos demais periódicos do ano.

Para o cálculo do fator de impacto aplicado às subáreas foram feitas adaptações,como já descritas na Seção 3.5.3, porém os periódicos possuem uma variação menorquanto à quantidade de publicações de um ano para outro, superando apenas a casa dasdezenas em diferença. Já no caso das subáreas o limiar de quantidade de publicações, deum ano para outro, e de uma subárea para outra, chega a ultrapassar a casa de milhares.

Um exemplo não favorável do cálculo da medida que afeta os resultados parasubáreas é o fato de uma determinada subárea S1 com 1.000 publicações e 1.000 citaçõesrecebidas possuir o mesmo fator de impacto que uma outra subárea S2 com 30 publicaçõese 30 citações recebidas. É o caso da subárea J.0 - General, da categoria J - Computer

Applications, que possui o maior fator de impacto da coleção SubACM-DL-2007. O fatorde impacto para as citações realizadas no ano 1995 referenciando as publicações de J.0no biênio de 1993-1994 é 16, isto se deve ao fato de que a subárea possui apenas trêspublicações no biênio de 1994 e recebe um total de 48 citações, logo: 48/3 = 16.

Porém, além destas três publicações serem classificadas como da subárea J.0,também são classificadas como da subárea H.5, a qual está entre as cinco maiores subáreasem quantidade de publicações e em quantidade de citações recebidas. Sendo assim, oimpacto proporcionado para a subárea H.5 é proporcionalmente pequeno por possuirmuitas publicações no período, já para a subárea J.0 o impacto é relativamente maiorpor conter justamente apenas três publicações no período.

Apesar do cálculo do fator de impacto ser influenciado diretamente pelos quan-titativos de citações recebidas e publicações realizadas, já apresentados em seções ante-riores, os resultados da Tabela 4.7 mostram que para a soma acumulativa dos biênios, osdados não são correspondentes. Os principais motivos são:

• as subáreas com poucas publicações possuem em si, com outras subáreas, artigoscientíficos que recebem uma grande quantidade relativa de citações e então sedestacam mais facilmente na média de citações bienais;

Page 61: Uma análise cienciométrica das subáreas da ciência da computação

4.3 Resultados do cálculo do fator de impacto 59

Tabela 4.7: Fator de Impacto por biênio para as 30 subáreas maiscitadas

# Subárea 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Total1988 1990 1992 1994 1996 1998 2000 2002 2004 2006

1 B.3 4,05 4,70 3,51 4,36 3,62 2,58 3,14 1,65 1,00 1,00 29,612 F.3 3,00 2,14 1,80 2,26 2,69 2,72 1,63 1,00 1,13 1,44 19,803 C.1 1,81 2,52 2,24 2,55 2,45 2,49 1,42 1,26 0,97 1,40 19,114 C.4 1,92 2,12 1,67 2,20 1,95 2,22 2,12 1,48 1,11 0,97 17,775 D.4 2,26 2,02 2,57 1,51 2,02 1,56 1,64 1,33 1,38 1,13 17,416 H.4 2,22 2,95 3,04 1,69 1,80 1,34 1,01 1,18 1,10 0,89 17,227 D.1 2,92 2,70 2,03 1,64 1,98 1,22 0,92 1,14 1,15 1,31 17,008 J.6 0,85 1,82 0,95 1,20 2,11 2,17 3,11 1,91 1,01 0,60 15,749 H.3 1,62 2,43 2,24 1,56 1,84 1,57 1,40 1,13 0,96 0,86 15,60

10 D.3 1,59 1,72 1,51 1,63 1,96 1,78 1,58 1,01 1,09 1,41 15,2911 H.5 2,95 1,20 2,50 1,93 1,50 1,17 1,18 1,05 0,81 0,74 15,0312 H.1 1,32 2,41 1,91 1,44 1,43 1,25 1,47 1,30 1,25 1,17 14,9413 I.3 1,59 2,00 1,84 2,02 1,94 1,16 1,46 1,12 0,83 0,57 14,5414 F.1 1,95 1,98 1,45 1,67 1,85 1,74 1,30 0,81 0,65 0,64 14,0215 C.2 1,44 2,07 1,51 1,49 1,85 1,40 1,23 1,17 0,93 0,81 13,9016 F.4 2,43 1,24 1,42 1,30 1,75 1,89 1,43 0,62 0,49 0,72 13,2917 H.2 1,92 1,21 1,35 0,89 1,59 1,22 1,23 1,24 1,04 0,92 12,6218 G.2 1,36 1,77 1,25 1,81 1,73 1,34 1,44 0,71 0,56 0,61 12,5719 D.2 1,42 1,78 1,59 1,24 1,32 1,14 1,14 0,94 0,99 0,93 12,4820 F.2 1,48 1,48 1,36 1,59 1,85 1,30 1,17 1,01 0,59 0,63 12,4521 B.7 0,67 0,92 0,56 1,76 1,87 1,59 1,99 1,10 1,17 0,62 12,2422 B.8 1,19 1,00 0 1,33 0,81 1,97 2,33 1,52 1,29 0,67 12,1123 K.4 0,98 2,19 2,07 0,69 0,78 0,69 1,21 1,16 0,87 1,10 11,7424 G.3 0,72 1,49 1,11 1,88 1,84 1,17 1,30 0,63 0,68 0,75 11,5825 I.4 1,58 0,89 0,70 1,60 2,44 0,93 1,24 0,80 0,67 0,63 11,4726 G.1 1,33 1,25 0,99 1,65 1,76 1,12 1,14 0,44 0,39 0,52 10,6027 K.6 1,46 1,28 0,91 0,75 0,82 1,45 1,17 1,06 0,86 0,82 10,5828 I.2 1,09 0,94 0,89 1,13 1,22 1,05 1,08 0,73 0,66 0,61 9,4029 I.6 0,50 1,04 0,58 1,38 1,25 1,11 1,19 0,86 0,72 0,59 9,2230 I.5 0,96 0,90 0,34 0,59 1,37 1,22 1,07 0,92 0,60 0,69 8,66

• as subáreas mais populosas, em quantidade de publicações, geralmente possuemuma grande quantidade de publicações que recebem poucas citações, penalizandoassim o fator de impacto da subárea.

Os valores em negrito da Tabela 4.7 estão acima da média das referidas subáreasnestes biênios destacados. De forma contrária às tabelas de quantidade de publicações ecitações, nesta tabela os valores acima da média se concentram nos primeiros biênios, ouseja, apesar da quantidade de publicações e citações ter aumentado com o passar dos anos,o fator de impacto diminuiu. Podendo afirmar que a quantidade de publicações aumentouproporcionalmente mais do que a quantidade de citações. No biênio 2005-2006 apenas27% das subáreas obtiveram média superior a uma citação por publicação, este mesmopercentual é obtido quando analisada a quantidade de subáreas que ganharam posições naTabela 4.8.

Page 62: Uma análise cienciométrica das subáreas da ciência da computação

4.3 Resultados do cálculo do fator de impacto 60

Tabela 4.8: Tabela comparativa de ordenações do Fator de Im-pacto das subáreas por década

Subárea Dif. Posições nas OrdenaçõesTotal 1987-1996 1997-2006

B.8 44 41 57 13J.6 32 19 39 7B.7 21 40 46 25K.6 13 50 52 39D.3 6 22 27 21I.5 5 62 60 55C.4 4 12 15 11H.2 3 36 38 35H.1 -1 25 25 26I.6 -1 59 56 57B.3 -3 2 2 5F.3 -3 6 7 10K.4 -5 44 41 46C.1 -8 8 9 17D.4 -8 14 12 20C.2 -9 31 28 37D.2 -9 38 34 43F.4 -11 33 29 40I.2 -11 58 50 61H.3 -13 20 16 29F.2 -18 39 33 51G.3 -18 45 36 54G.2 -21 37 31 52D.1 -22 17 11 33F.1 -23 29 21 44I.3 -23 27 18 41I.4 -25 46 35 60G.1 -28 49 37 65H.4 -30 15 8 38H.5 -33 23 14 47

Outro exemplo não favorável para o cálculo da medida para este estudo é o dasubárea B.3 - Memory Structures que, assim como já apresentado na Seção 4.2, teveuma forte decaída na quantidade de citações recebidas. Essa mesma decaída pode serverificada na Tabela 4.7. Contudo, a subárea permaneceu em primeiro lugar de ordenaçãopor possuir altos índices de fator de impacto nos primeiros biênios. Essa diferença aindase manteve alta no total acumulado com aproximadamente, 66% a mais do que a segundasubárea F.3. - Logics and Meanings of Programs.

Nota-se que das 30 subáreas mais citadas, apenas B.3 está entre as cinco demaior fator de impacto acumulado,embora essa subárea tenha decaído da segunda posiçãono período de 1987-1996 para a quinta posição no período 1997-2006. Logo, seguindoesta tendência, não haverá nenhuma subárea das mais citadas entre as de maior fator deimpacto acumulado.

Page 63: Uma análise cienciométrica das subáreas da ciência da computação

4.4 Resultados do cálculo PageRank ponderado 61

4.4 Resultados do cálculo PageRank ponderado

Nesta seção são apresentados os resultados obtidos com o cálculo do PageRank

ponderado, adaptado para as subáreas na coleção SubACM-DL-2007. Os resultados doPageRank ponderado em cada biênio são mostrados na Tabela 4.9. O valor em cadabiênio corresponde ao valor do PageRank computado para cada subárea no grafo bienalde subáreas G(A,A+1) = (V ,E(A,A+1)). Sendo que A corresponde ao primeiro ano de cadabiênio na tabela e A+ 1 corresponde ao segundo ano do biênio. Os valores em negritosão os que estão acima da média de valores bienais de PageRank computada para cadasubárea.

Tabela 4.9: PageRank por biênio para as 30 subáreas mais cita-das.

# Subárea 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Total1988 1990 1992 1994 1996 1998 2000 2002 2004 2006

1 H.5 1,26 1,11 2,22 2,21 1,88 1,66 1,65 1,80 1,83 2,11 17,742 D.2 1,89 1,93 1,85 1,56 1,66 1,64 1,66 1,52 1,74 1,79 17,243 D.3 2,02 1,76 1,79 1,88 1,92 1,70 1,61 1,45 1,48 1,54 17,164 F.2 1,58 1,77 1,69 1,83 1,71 1,54 1,50 1,71 1,77 1,83 16,945 C.2 1,45 1,54 1,51 1,63 1,68 1,63 1,54 1,82 1,86 2,05 16,716 I.2 1,59 1,62 1,50 1,51 1,48 1,58 1,67 2,01 1,85 1,85 16,677 H.2 1,78 1,47 1,51 1,54 1,57 1,47 1,59 1,65 1,54 1,54 15,668 C.4 1,74 1,45 1,52 1,45 1,44 1,90 1,61 1,49 1,46 1,52 15,579 D.4 1,63 1,59 1,65 1,44 1,61 1,42 1,60 1,50 1,53 1,46 15,43

10 H.3 1,46 1,41 1,37 1,29 1,48 1,56 1,54 1,82 1,76 1,72 15,4211 G.2 1,32 1,70 1,38 1,72 1,56 1,54 1,60 1,47 1,50 1,37 15,1612 I.3 1,58 1,53 1,51 1,43 1,60 1,50 1,65 1,51 1,41 1,29 15,0313 G.1 1,40 1,47 1,51 1,45 1,48 1,40 1,40 1,44 1,58 1,67 14,8014 C.1 1,62 1,73 1,61 1,54 1,37 1,46 1,31 1,37 1,38 1,36 14,7615 B.7 1,22 1,44 1,25 1,37 1,41 1,52 1,64 1,46 1,81 1,52 14,6316 H.1 1,40 1,60 1,49 1,61 1,48 1,36 1,34 1,48 1,37 1,41 14,5317 F.1 1,50 1,57 1,41 1,56 1,45 1,42 1,34 1,30 1,26 1,25 14,0618 K.6 1,51 1,36 1,38 1,22 1,28 1,44 1,47 1,40 1,37 1,42 13,8619 D.1 1,37 1,46 1,45 1,43 1,56 1,30 1,19 1,19 1,20 1,30 13,4720 I.6 1,22 1,26 1,30 1,32 1,30 1,35 1,43 1,39 1,35 1,39 13,3121 H.4 1,35 1,32 1,52 1,27 1,38 1,23 1,18 1,33 1,25 1,26 13,1022 K.4 1,15 1,29 1,34 1,21 1,17 1,22 1,30 1,41 1,47 1,36 12,9323 J.6 1,28 1,33 1,43 1,22 1,16 1,31 1,46 1,32 1,16 1,11 12,7824 B.3 1,31 1,38 1,29 1,36 1,37 1,19 1,29 1,16 1,16 1,12 12,6325 I.5 1,15 1,19 1,13 1,14 1,15 1,37 1,33 1,41 1,30 1,42 12,5926 F.3 1,26 1,30 1,27 1,32 1,31 1,29 1,24 1,16 1,14 1,21 12,5227 I.4 1,24 1,22 1,19 1,14 1,26 1,29 1,39 1,26 1,27 1,24 12,5128 K.3 1,25 1,24 1,25 1,24 1,27 1,18 1,26 1,21 1,27 1,31 12,4929 G.3 1,17 1,26 1,19 1,26 1,26 1,18 1,24 1,23 1,27 1,28 12,3330 F.4 1,38 1,22 1,23 1,25 1,20 1,24 1,17 1,20 1,22 1,20 12,3131 B.8 1,13 1,08 1,07 1,07 1,07 1,30 1,48 1,33 1,39 1,37 12,29

A Tabela 4.9 está ordenada em ordem decrescente do valor acumulado dePageRank nos biênios. Como pode ser visto, a distribuição do valor acumulado nãoobedece à mesma discrepante, como ocorreu com a quantidade de citações recebidas

Page 64: Uma análise cienciométrica das subáreas da ciência da computação

4.4 Resultados do cálculo PageRank ponderado 62

pelas subáreas, conforme apresentado na Seção 4.2. Comparando-se as 30 subáreas demaior valor acumulado de PageRank ponderado com as 30 com maior quantidade decitações, verificou-se que apenas duas subáreas não aparecem nas duas ordenações aomesmo tempo. A subárea B.8 - Performance and Reliability aparece na 27a posiçãona ordenação por número de citações e na 31a posição na ordenação por PageRankacumulado. Por outro lado, a subárea K.3 - Computers and Education aparece na 28a

posição na ordenação por PageRank e na 37a posição na ordenação por quantidade decitações. Dada essa constatação, optou-se por apresentar na Tabela 4.9 as 31 subáreas commaior valor acumulado, incluindo assim a subárea B.8 que é a próxima na ordenação porPageRank, uma vez que tal subárea demonstrou ser tendência em termos de quantidadede citações recebidas.

De modo diferente do que ocorreu com a quantidade de publicações e tambémcom a quantidade de citações, os valores acima da média (em negrito) não possuem umcomportamento padrão. Eles não tendem a se aglutinar nos últimos biênios da tabela,como ocorreu com as medidas estudadas anteriormente. Isso mostra que o PageRank sealtera muito em uma mesma subárea nos diversos biênios. Em várias subáreas o PageRank

é superior à média nos biênios iniciais, depois decai nos biênios subsequentes e volta aaumentar de valor nos biênios finais. Entretanto, dado que nas seções anteriores os biêniosforam agrupados em dois períodos: 1987-1996 e 1997-2006, acumulou-se os valores dePageRank nos biênios que formam esses períodos e gerou-se uma ordenação para cadaperíodo, conforme mostra a Tabela 4.10.

A coluna Dif. na Tabela 4.10 mostra a diferença entre a posição de cada subáreana ordenação 1987-1996 e a posição na ordenação 1997-2006. A média m dos módulosdos valores que aparecem na coluna Dif foi computada. As subáreas cujos valores dediferença são superiores à m aparecem na parte superior da tabela. As subáreas cujasdiferenças de valores de posições são inferiores a m aparecem na parte inferior da tabela.As demais subáreas aparecem na parte central da tabela.

Observa-se que três subáreas que estão na parte superior da Tabela 4.10 tambémestão entre as que mais mudaram de posição entre as duas ordenações 1987-1996 e1997-2006 quanto à quantidade de citações (ver Tabela 4.4). Essas subáreas são: B.8 -

Performance and Reliability, I.5 - Pattern Recognition e H.3 - Information Storage and

Retrieval. O que mostra que essas subáreas tendem a serem destaques também quandoconsideramos uma medida de prestígio como é o caso do PageRank.

Com o objetivo de entender o aumento do PageRank das subáreas que estão notopo Tabela 4.10 e também o motivo de algumas subáreas ocuparem as primeiras posiçõesna ordenação 1997-2006, construiu-se uma tabela com a subáreas que mais citam essassubáreas no período 1997-2006, somando-se as citações a cada biênio. A Tabela 4.11mostra, para cada subárea listada na primeira coluna a esquerda, as cinco subáreas à

Page 65: Uma análise cienciométrica das subáreas da ciência da computação

4.4 Resultados do cálculo PageRank ponderado 63

Tabela 4.10: Tabela comparativa de ordenações do PageRank Pon-derado por década.

Subárea Dif. Posições nas OrdenaçõesTotal 1987-1996 1997-2006

B.8 41 31 60 19I.5 18 25 38 20H.3 13 10 17 4B.7 13 15 21 8I.4 8 27 31 23K.4 8 22 29 21I.2 7 6 9 2I.6 7 20 24 17C.2 5 5 8 3C.4 5 8 12 7K.6 4 18 19 15G.1 3 13 15 12H.5 2 1 3 1G.3 0 29 30 30F.2 -1 4 4 5H.2 -2 7 7 9J.6 -2 23 23 25G.2 -3 11 10 13I.3 -3 12 11 14H.1 -3 16 13 16D.2 -4 2 2 6D.4 -6 9 5 11F.1 -8 17 14 22F.4 -8 30 25 33D.3 -9 3 1 10H.4 -9 21 18 27F.3 -10 26 22 32C.1 -12 14 6 18D.1 -13 19 16 29B.3 -15 24 20 35

frente que mais a citaram no período. As subáreas que aparecem na parte superior daprimeira coluna são as que tendem a crescer de importância, e posteriormente as subáreasrestantes no centro da Tabela 4.10 as que estão entre as dez primeiras posições no período1997-2006.

Observa-se, em quase todos os casos da Tabela 4.11, que as subáreas da primeiracoluna tendem a receber muitas citações das subáreas que estão na segunda ou terceiracolunas. Nas colunas seguintes, o número de citações cai significativamente. Além disso,a segunda e terceira colunas, tendem a ser também subáreas de alto prestígio, istoé, aparecem na primeira coluna de outra linha da mesta tabela. Como o PageRank éponderado pelo número de citações de uma subárea para outra, a propagação do valorde PageRank é maior quando o número de citações é maior. Com isso, as subáreas daTabela 4.11 formam grupos de autoridades que se citam muito mutuamente, propagandomais os valores de PageRank entre si.

Page 66: Uma análise cienciométrica das subáreas da ciência da computação

4.5 Resultados da medida de diversidade 64

Tabela 4.11: Cinco subáreas que mais citam subáreas que se des-tacam por PageRank. O número entre parênteses cor-responde ao número de citações.

B.8 B.7(988) C.4(437) C.1(344) J.6(261) J.2(247)I.5 I.2(950) H.3(680) I.4(617) H.2(520) F.2(334)H.3 H.2(1889) H.5(1582) I.2(1212) I.5(706) C.2(682)B.7 B.8(981) C.1(540) J.6(514) C.4(487) B.6(369)H.5 H.3(1769) H.1(1173) I.2(899) D.2(789) I.3(782)I.2 H.3(1397) I.5(1072) H.5(980) H.2(831) F.2(680)C.2 C.4(19620 D.4(1121) F.2(944) K.6(783) H.3(774)F.2 G.2(1531) G.1(108) C.2(1009) I.2(744) I.3(447)D.2 D.3(1505) K.6(1172) H.5(871) F.3(725) D.4(692)C.4 C.2(2008) D.4(719) C.1(635) B.7((615) B.8(472)H.2 H.3(2084) I.2(761) I.5(565) C.2(494) H.5(493)D.3 D.2(1775) F.3(848) D.4(729) D.1(658) I.2(375)

4.5 Resultados da medida de diversidade

Nesta seção são apresentados e discutidos os resultados da medida de diversidadeaplicada à SubACM-DL-2007. De modo semelhante ao que foi feitos para as outrasmedidas relacionadas a citações, foi criado um grafo bienal de subárea G(A,A+1) =

(V ,E(A,A+1)) para cada biênio (A,A+ 1). A medida de diversidade foi computada emcada biênio, para cada subárea. As 30 subáreas com maiores valores acumulados dediversidade são apresentadas na Tabela 4.12. Os valores para uma dada subárea que sãomaiores que a média das valores bienais de diversidade, para aquela subárea, aparecemem negrito na linha da tabela correspondente à subárea.

A diversidade de uma subárea S corresponde à entropia da distribuição deprobabilidade das citações a S serem feitas por outras subáreas (ver Seção 3.5.5). Aentropia mede a incerteza em uma variável aleatória. Quanto maior a entropia maior aincerteza na distribuição em uma variável aleatória.

No caso das subáreas a situação de maior entropia ocorre quando todas as demaissubáreas têm igual chance de citar uma determinada subárea S. Essa situação correspondeà maior incerteza de qual subárea irá citar S. No extremo oposto, temos que a menorentropia ocorre quando apenas uma subárea concentra a maioria das citações a S. Dadoque a diversidade corresponde a essa entropia, um valor alto de diversidade para uma áreaS indica que S tem chance de ser citada quase que igualmente por várias subáreas. Poroutro lado, quanto menor a diversidade de S maior a tendência de S ser mais citada porum subconjunto menor de subáreas. Nesse caso, as citações a S são mais concentradas.

A diversidade não está diretamente relacionada à quantidade de informações, ouseja, é possível ter uma subárea S com um número pequeno de citações que estejam bemdistribuídas entre as subáreas que citam S, do mesmo modo, é possível ter um subárea S

com grande número de citações e que também estejam bem distribuídas entre as subáreas

Page 67: Uma análise cienciométrica das subáreas da ciência da computação

4.5 Resultados da medida de diversidade 65

Tabela 4.12: Medida da diversidade por biênio para as 30 subá-reas mais citadas.

# Subárea 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Total1988 1990 1992 1994 1996 1998 2000 2002 2004 2006

1 I.6 1,39 1,40 1,46 1,47 1,50 1,50 1,54 1,57 1,47 1,48 14,772 I.2 1,39 1,47 1,42 1,46 1,49 1,52 1,47 1,54 1,50 1,48 14,723 F.2 1,38 1,46 1,39 1,42 1,44 1,45 1,44 1,48 1,44 1,44 14,354 C.2 1,37 1,41 1,41 1,43 1,40 1,47 1,44 1,50 1,46 1,43 14,325 F.1 1,39 1,38 1,31 1,39 1,45 1,51 1,49 1,52 1,43 1,43 14,306 D.2 1,39 1,37 1,37 1,40 1,47 1,48 1,41 1,48 1,44 1,38 14,187 H.2 1,44 1,43 1,44 1,44 1,45 1,35 1,37 1,36 1,39 1,38 14,058 D.4 1,32 1,33 1,38 1,38 1,39 1,46 1,48 1,47 1,42 1,40 14,049 G.2 1,32 1,41 1,35 1,42 1,44 1,50 1,49 1,44 1,35 1,31 14,02

10 G.1 1,34 1,45 1,30 1,41 1,38 1,45 1,47 1,46 1,36 1,31 13,9411 C.3 1,13 1,26 1,37 1,40 1,43 1,47 1,50 1,47 1,43 1,42 13,8612 D.3 1,35 1,30 1,31 1,37 1,42 1,50 1,44 1,41 1,38 1,33 13,8213 C.1 1,33 1,33 1,26 1,29 1,32 1,42 1,45 1,47 1,45 1,43 13,7514 C.5 1,27 1,33 1,29 1,25 1,30 1,44 1,46 1,47 1,41 1,45 13,6815 J.2 1,34 1,25 1,32 1,50 1,44 1,51 1,45 1,50 1,27 1,10 13,6616 K.6 1,27 1,35 1,32 1,18 1,36 1,52 1,46 1,42 1,38 1,38 13,6517 C.4 1,33 1,29 1,29 1,33 1,34 1,47 1,43 1,43 1,39 1,30 13,6118 E.1 1,36 1,37 1,28 1,38 1,44 1,35 1,36 1,28 1,37 1,36 13,5519 B.4 1,25 1,26 1,35 1,40 1,38 1,39 1,39 1,43 1,38 1,30 13,5220 H.5 1,11 1,20 1,35 1,36 1,38 1,39 1,35 1,44 1,42 1,42 13,4221 I.3 1,35 1,30 1,38 1,28 1,38 1,34 1,35 1,39 1,28 1,32 13,3722 I.1 1,22 1,25 1,19 1,28 1,35 1,34 1,38 1,48 1,46 1,41 13,3723 G.3 1,23 1,33 1,12 1,34 1,36 1,33 1,40 1,39 1,43 1,36 13,2924 J.6 1,23 1,39 1,20 1,37 1,32 1,33 1,37 1,42 1,33 1,22 13,1825 D.1 1,26 1,22 1,27 1,34 1,39 1,44 1,30 1,32 1,30 1,33 13,1626 H.3 1,34 1,19 1,30 1,24 1,29 1,29 1,32 1,40 1,40 1,38 13,1627 E.4 1,01 1,26 1,16 1,16 1,26 1,44 1,48 1,49 1,46 1,37 13,1028 J.7 1,17 1,25 1,19 1,16 1,37 1,36 1,26 1,41 1,48 1,42 13,0429 B.7 1,24 1,29 1,03 1,36 1,24 1,30 1,35 1,42 1,41 1,38 13,0230 J.3 1,12 1,18 1,04 1,37 1,34 1,32 1,36 1,41 1,41 1,42 12,97

que citam S.A Tabela 4.12 mostra que há grande variação para a diversidade de uma mesma

subárea nos biênios. Seguindo o procedimento adotado nas seções anteriores, obteve-sea diversidade acumulada nos biênios do período 1987-1996 e 1997-2006. A tabela 4.13mostra as posições das subáreas nas ordenações correspondentes aos dois períodos.

A medida da diversidade foi proposta por Mann et al. [60] e utilizada emsubáreas, mas em um experimento em que o fator tempo não foi considerado. Devidoà grande variação do valor de diversidade para uma mesma subárea em biênios distintos,como mostra a Tabela 4.12, o uso dessa medida se justifica apenas quando for analisadoum único biênio.

A tentativa de utilizar a soma dos valores de diversidade nos biênios queformam os períodos 1987-1996 ou 1997-2006 não geram resultados conclusivos. Seforem utilizadas as posições do período 1997-2006, tem-se informações inconsistentes.

Page 68: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 66

Tabela 4.13: Tabela comparativa de ordenações da Medida deDiversidade por década.

Subárea Dif. Posições nas OrdenaçõesTotal 1987-1996 1997-2006

E.4 22 27 30 8C.5 15 14 22 7C.3 12 11 17 5I.1 12 22 26 14J.3 10 30 29 19C.1 8 13 18 10K.6 8 16 20 12J.7 8 28 28 20H.5 6 20 23 17F.1 5 5 8 3D.4 3 8 12 9G.3 3 23 24 21B.7 3 29 27 24I.6 1 1 2 1C.2 1 4 5 4I.2 -1 2 1 2H.3 -1 26 25 26F.2 -2 3 4 6D.3 -2 12 13 15C.4 -2 17 16 18D.2 -5 6 6 11G.2 -6 9 7 13G.1 -7 10 9 16B.4 -7 19 15 22D.1 -7 25 21 28J.6 -11 24 19 30J.2 -15 15 10 25I.3 -15 21 14 29E.1 -16 18 11 27H.2 -20 7 3 23

Por exemplo, a segunda subárea com maior valor acumulado de diversidade é I.2. Asubárea H.3 ocupa a 26a posição no mesmo período (1997-2006). Entretanto, as citaçõesfeitas pelas dez subáreas que mais citam essas subáreas (ver Tabela 4.14) mostram que,em ambas, a primeira subárea que cita tem alto número de citações e o número de citaçõesdiminui rapidamente até a décima subárea. Dado que I.2 tem maior valor de diversidadeacumulado, poderia-se esperar que a distribuição das citações a essa subárea fosse bemmais uniformemente distribuída do que as citações a H.3, porém isso não ocorre.

4.6 Análise de resultados

Nesta seção é apresentada uma análise dos resultados obtidos com a aplicaçãodas medidas bibliométricas na SubACM-DL-2007. A Seção 4.6.1 apresenta uma análisedas medidas utilizadas. A Seção 4.6.2 discute a correlação entre essas medidas. A Seção

Page 69: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 67

Tabela 4.14: As 10 subáreas que mais citam uma determinadasubárea.

Subáreas que citam

Subárea citada B.7B.8 C.1 J.6 C.4 B.6 J.2 C.3 B.4 C.2 B.3981 540 514 487 369 365 332 322 221 212

Subárea citada B.8B.7 C.4 C.1 J.6 J.2 C.3 B.6 B.3 B.4 C.2988 437 344 261 247 233 231 227 192 174

Subárea citada C.1C.4 C.2 B.7 D.4 D.3 B.8 B.3 C.3 F.2 C.5593 570 407 402 291 287 279 229 199 167

Subárea citada C.2C.4 D.4 F.2 K.6 H.3 C.3 I.6 D.2 G.2 H.5

1962 1121 944 783 774 658 633 592 588 566

Subárea citada C.4C.2 D.4 C.1 B.7 B.8 F.2 I.6 C.3 D.3 B.3

2008 719 635 615 472 451 415 388 369 340

Subárea citada D.2D.3 K.6 H.5 F.3 D.4 I.2 D.1 H.3 C.2 H.2

1505 1172 871 725 692 630 577 529 498 369

Subárea citada D.3D.2 F.3 D.4 D.1 I.2 F.4 K.6 C.4 C.3 C.2

1775 848 729 658 375 354 323 287 281 268

Subárea citada D.4C.2 K.6 D.2 D.3 C.4 F.2 C.1 H.3 C.3 H.2

1235 721 716 681 663 349 311 308 306 277

Subárea citada F.1F.2 I.2 G.2 G.1 D.3 D.4 I.5 D.2 F.4 C.2493 384 311 292 225 225 211 206 193 191

Subárea citada F.2G.2 G.1 C.2 I.2 I.3 F.1 H.3 I.5 C.4 G.3

1531 1088 1009 744 447 445 412 364 346 334

Subárea citada G.1F.2 J.2 I.2 I.3 I.6 G.2 I.5 G.3 I.4 F.1

1330 680 676 595 497 480 415 335 320 239

Subárea citada G.2F.2 C.2 G.1 I.2 H.2 H.3 F.1 I.3 C.4 G.3

1660 699 519 506 332 326 264 253 250 220

Subárea citada H.2H.3 I.2 I.5 C.2 H.5 I.7 D.2 F.2 K.6 D.4

2084 761 565 494 493 452 378 329 314 248

Subárea citada H.3H.2 H.5 I.2 I.5 C.2 I.7 D.2 H.4 H.1 K.6

1889 1582 1212 706 682 599 489 461 419 397

Subárea citada H.5H.3 H.1 I.2 D.2 I.3 K.4 H.4 C.2 H.2 K.6

1769 1173 899 789 782 611 600 521 467 439

Subárea citada I.2H.3 I.5 H.5 H.2 F.2 D.2 I.4 I.3 G.1 I.6

1397 1072 980 831 680 630 609 605 579 522

Subárea citada I.5I.2 H.3 I.4 H.2 F.2 H.5 G.1 G.3 I.3 I.6950 680 617 520 334 324 312 274 225 173

Subárea citada I.6C.2 I.2 I.3 G.1 C.4 H.5 D.2 F.2 D.4 J.2593 424 372 343 307 296 237 230 209 208

Subárea citada K.4H.5 K.6 H.3 I.2 H.1 C.2 H.4 D.2 H.2 K.3631 479 456 312 261 253 227 179 134 125

Subárea citada K.6D.2 D.4 C.2 H.5 D.3 H.3 K.4 H.2 I.2 H.4949 630 592 352 341 333 291 258 220 214

Page 70: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 68

4.6.3 apresenta as subáreas de destaque em computação de acordo com a análise sobre asmedidas bibliométricas.

4.6.1 Medidas utilizadas

Dado que as publicações em uma subárea do conhecimento reportam resultadosde pesquisas na subárea e que vários trabalhos apresentam novas soluções, novas meto-dologias ou interpretações sobre problemas de estudo da subárea, a medida do número depublicações, apesar de ser uma contagem simples, reflete a produtividade de uma subárea.Além disso, a quantidade de publicações denota a quantidade de pesquisadores que têmtrabalhado numa determinada subárea.

A aplicação da quantidade de publicações sobre a SubACM-DL-2007, mostra asseguintes informações:

• considerando o número total de publicações em todos os biênios, a distribuiçãodesse número entre as subáreas segue a uma distribuição discrepante, mostrandoque o número de publicações e consequentemente, o número de trabalhos científicospublicáveis concentra-se muito em poucas subáreas;• os resultados da Seção 4.1 mostram que essa concentração de interesse não é

estática, mas bastante dinâmica, com algumas subáreas que concentram muitaspublicações em um determinado período podem, com o passar do tempo, serultrapassadas por outras subáreas.• de modo análogo, subáreas que tinham poucas publicações podem tender a ser

atraentes para os pesquisadores, por exemplo, é o que acontece com as subáreasH.3 e B.8.

A medida de quantidade de citações é importante para ressaltar aquelas subáreasda computação que são muito relevantes segundo outras subáreas. A citação de umartigo para outro pode ter vários motivos, inclusive opostos (um artigo pode citar outroporque está ressaltando o trabalho realizado apresentado no artigo citado, ou pode estarfazendo uma crítica ao trabalho citado). Entretanto, quando o número de citações tendea ser grande, reflete um consenso da importância do artigo citado. O mesmo ocorre comcitações entre subáreas, principalmente quando não se consideram auto-citações (umasubárea citando ela mesma) como foi o caso deste trabalho.

Para auxiliar na análise da medida da quantidade de citações e suas relaçõesentre as subáreas, como também para as demais medidas deste trabalho, foram utilizadosgrafos. Por exemplo a Figura 4.3 mostra as 30 subáreas mais citadas no período de 1987-2006 se relacionando especificamente apenas com a subárea C.2, a qual é a de maiorquantidade de citações acumulada nos biênios.

Page 71: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 69

Para este grafo foram utilizadas as seguintes convenções: dado que cada vértice v

é representado unicamente por uma subárea S e cada arco a é representada pelas citaçõesrecebidas entre um determinado vértice v1 e outro vértice v2:

• quanto maior o tamanho do vértice vi , maior é a quantidade de citações recebidaspelo vértice;• quanto mais espessa o arco a, maior é a relação entre os vértices que interligam o

arco.

Portanto, a subárea C.2 é representada no grafo pelo maior vértice, seguida dasubárea D.2 e por último a subárea J.6. Já quanto à relação entre as subáreas, a mais forteé entre a subárea C.2 e subárea C.4. Estes grafos foram gerados utilizando o software livreGephi1.

O uso da quantidade de citações na SubACM-DL-2007 permitiu derivar impor-tantes informações sobre a relevância de subáreas da computação. Entre elas destacam-se:

• a quantidade total de citações recebidas por subáreas da computação em todosos biênios também obedece uma distribuição discrepante, com poucas subáreasrecebendo muito mais citações do que a maioria das outras subáreas;• assim como ocorre com o número de publicações, as subáreas mais citadas podem

mudar com o tempo, de forma irregular entre as subáreas, com algumas subáreasaumentando o número de citações e outras diminuindo proporcionalmente o númerode citações recebidas com o tempo.

É interessante ressaltar que poucas subáreas sofreram decréscimo no númerode citações. Notadamente, aquelas na parte inferior da Tabela 4.4. Entretanto, muitassubáreas continuam tendo aumento do número de citações. Porém, o aumento é inferior aode outras subáreas, o que faz com que algumas subáreas percam posições nas ordenaçõespor número de citações. Esse é o caso das subáreas D.4 e D.3.

Nota-se que, entre as duas décadas consideradas 1987-1996 e 1997-2006, houveum aumento do número de citações a subáreas tecnológicas (C.2, H.3, B.8 e H.5) ousubáreas metodológicas (I.2 e I.5). Por outro lado, há uma tendência a queda no númerode citações para subáreas teóricas, exceto algumas subáreas específicas de matemática(G.1 e G.3).

A quantidade de citações, contudo, mostra apenas que uma subárea é muitocitada ou não, e não indica outras informações igualmente importantes, tais como:

a) a relação entre o número de citações recebidas por uma subárea e o número depublicações da subárea;

1https://gephi.org/

Page 72: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 70

Figura 4.3: Grafo de citações para a subárea C.2.

b) a distribuição do número de citações de uma dada subárea dentre as demaissubáreas.

Duas medidas foram propostas na literatura para obter essas informações. Para oitem a é utilizado o Fator de Impacto, o qual é utilizado para medir relevância de revistasindexadas (journal). Entretanto, conforme explicado na seção 3.5.3, a grande variaçãotanto no número de citações quanto no número de publicações das subáreas torna a medidainapropriada para uso com subáreas.

A medida da Diversidade tem o objetivo de obter o tipo de informação do itemb. Contudo quando considerado o acumulado dos biênios, a medida apresentou grandevariação para cada subárea. E demonstrou ser inconsistente para comparar subáreas entresi.

Page 73: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 71

A medida de prestígio adotada neste trabalho foi o PageRank ponderado, umaadaptação do PageRank para considerar o número de citações na propagação do PageRank

entre subáreas. Analisando o PageRank à luz da Tabela 4.11, conforme discutido na Seção4.4, percebe-se que se uma subárea S1, com alto valor de PageRank cita muito mais umasubárea S2 do que as outras, a transferência de valor de PageRank de S1 será maior doque para as demais subáreas. Isso permite detectar alguns grupos de subáreas que sãorelevantes e estão fortemente ligadas por citações.

4.6.2 Correlação entre as Medidas

Nesta seção, apresenta-se uma análise sobre a correlação das medidas utilizadas.As ordenações mostradas nas seções anteriores denotam que há forte correlação entre asmedidas utilizadas, tanto na ordenação total, quanto nas ordenações correspondentes aosperíodos 1987-1996 e 1997-2006, principalmente entre as dez primeiras subáreas em cadaordenação.

A Tabela 4.15 mostra não somente a grande interseção entre as dez subáreas notopo da ordenação do período 1997-2006, que reflete a evolução mais recente na coleção,mas também, a semelhança de comportamento das subáreas ao mudarem de posição entreuma ordenação e outra. A tabela mostra as subáreas que ocupam os dez primeiros lugaresem cada medida no período de 1997-2006. Os valores entre parênteses mostram quantasposições a subárea subiu (↑) em direção ao topo entre o período 1987-1996 e o período11997-2006, ou quantas posições desceu (↓).

Tabela 4.15: As dez subáreas com melhores posições no período1997-2006 em ordem crescente das seguintes medi-das: número de publicações, número de citações ePageRank acumulado.

Pos. # Pub. # Cit. PageRank1 I.2 (↑ 13) C.2 (↑ 7) H.5 (↑ 2)2 G.1 (↑ 12) I.2 (↑ 11) I.2 (↑ 7)3 C.2 (↑ 3) H.3 (↑ 16) C.2 (↑ 15)4 F.2 (↓ 1) H.5 (↑ 2) H.3 (↑ 13)5 H.5 (↑ 1) D.2 (↓ 3) F.2 (↓ 1)6 H.3 (↑ 14) F.2 (↓ 3) D.2 (↓ 4)7 D.2 (↓ 5) C.4 (↑ 2) C.4 (↑ 5)8 G.2 (↓ 3) H.2 (↑ 6) B.7 (↑ 13)9 H.2 (↓ 1) D.3 (↓ 8) H.2 (↓ 2)

10 I.5 (↑ 20) D.4 (↓ 5) D.3 (↓ 9)

Percebe-se na Tabela 4.15 que a correlação é mais forte entre o número decitações e o PageRank. Somente a subárea D.4 que aparece na ordenação para o número decitações e não aparece entre as 10 primeiras posições na ordenação de PageRank. ApenasB.7 aparece na ordenação de PageRank e não aparece na ordenação por quantidade de

Page 74: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 72

citações. A correlação entre o número de publicações e as duas medidas é um pouco maisfraca, mas mesmo assim, a maioria das subáreas ocorrem nas três ordenações.

Para confirmar a correspondência entre as medidas foi utilizada a correlaçãode posições de Spearman, nome derivado pelo seu criador Charles Spearman em 1907.Tal correlação é não-paramétrica, ou seja, avalia uma função monótona arbitrária emrelação a duas variáveis de ordenação. O resultado da fórmula da correlação é usualmentedenominado por ρ em 4-1:

ρ = 1− 6∑d2s

(n3−n). (4-1)

Onde:

• ds = a diferença de posições do ranking para duas medidas de uma determinadasubárea s;• n = o número de variáveis por ranking, neste caso, 81 subáreas.

Desta forma, como já mostrado nas tabelas comparativas de ordenação anterior-mente, foi feito o cálculo para as medidas supostamente mais correlatas: quantidade depublicações, quantidade de citações e PageRank. Após ordenar todas as 81 subáreas doestudo pelo acumulado das três medidas nos períodos de 1987-1996, 1997-2006 e total,os resultados obtidos foram bastante satisfatórios para comprovar a correlação.

Tendo que ρ varia de −1 a 1, sendo que quanto mais próximo de 1 mais forteé a correlação e quanto mais próximo de −1 mais fraca a correlação. Portanto pode-seafirmar, conforme a Tabela 4.16, que as medidas são correlatas em todos os períodosavaliados, principalmente as medidas quantidade de citações e PageRank, que possuemρ = 0,99 para os três períodos temporais.

Tabela 4.16: Valores da correlação de Spearman.

Publicações x CitaçõesPeríodo 1987-1996 1997-2006 Total

ρ = 0,98 0,98 0,97Publicações x PageRank

Período 1987-1996 1997-2006 Totalρ = 0,98 0,97 0,97

Citações x PageRankPeríodo 1987-1996 1997-2006 Total

ρ = 0,99 0,99 0,99

4.6.3 Subáreas de Destaque em Ciência da Computação

Dada a forte correlação entre as medidas, é possível detectar as subáreas quemais têm se destacado no último período considerado (1997-2006). Serão consideradas

Page 75: Uma análise cienciométrica das subáreas da ciência da computação

4.6 Análise de resultados 73

as subáreas que aparecem nas entre as dez primeiras posições em pelo menos duas dasordenações.

Também serão consideradas destaques aquelas subáreas que, embora não estejamentre as dez primeiras em alguma ordenação no período 1997-2006, representem tendên-cias. Essas subáreas, cuja diferença entre a posição no período 1987-1996 e 1997-2006está acima da média, são aquelas que aparecem na parte superior das Tabelas 4.2, 4.4 e4.10. A Tabela 4.17 mostra a relação das subáreas de maior destaque em computação, deacordo com o critério descrito acima.

Tabela 4.17: Subáreas de maior destaque.

Pos Subárea1 I.2 - Artificial Intelligence2 C.2 - Computer-Communication Networks3 H.5 - Information Interfaces and Presentation4 H.3 - Information Retrieval and Storage5 F.2 - Analysis of Algorithms and Problem Complexity6 D.2 - Software Engineering7 H.2 - Database Management8 C.4 - Performance of Systems9 D.3 - Programming Languages

10 B.8 - Performance and Reliability11 I.5 - Pattern Recognition

Page 76: Uma análise cienciométrica das subáreas da ciência da computação

CAPÍTULO 5Conclusões

Neste trabalho foi apresentada uma análise cienciométrica da ciência da com-putação, considerando subáreas dessa ciência e, principalmente, a influência do temponessa análise. O trabalho utilizou três medidas bibliométricas convencionais na análisecronológica por subárea: número de publicações por subárea/biênio, número de citaçõesrecebidas por subárea/biênio e uma adaptação da medida PageRank para ser utilizada comsubáreas.

Foram também investigados os usos de duas outras medidas: Fator de Impacto eDiversidade. Ambas se mostraram não satisfatórias para a análise bibliométrica acumula-tiva para biênios, proposta por este trabalho.

As medidas foram utilizadas com base em uma subcoleção da biblioteca digitalda ACM, conhecida por ter a mais diversificada gama de publicações em ciência dacomputação (artigos de conferência e revistas indexadas). O trabalho permitiu umasérie de conclusões importantes sobre a análise de subáreas da computação. Entre elasdestacam-se:

1. o fator tempo é uma variável fundamental na análise bibliométrica de subáreas- as medidas e as subáreas variam com o tempo crescendo ou diminuindo deimportância relativa entre si, não possuindo uma tendência normalizada;

2. embora exista muita pesquisa em ciência da computação, esse trabalho demonstraque essa ciência está em crescente expansão e evolução;

3. o relacionamento entre as subáreas tem se modificado ao longo dos anos; subáreasde metodologia, tais como inteligência artificial (I.2) e subáreas tecnológicas - redesde computadores (C.2), recuperação de informação (H.3) têm sido mais citadas doque subáreas fundamentais de teoria da computação;

4. algumas subáreas se mostraram de tendência a atraírem mais pesquisadores emais citações, embora não estejam entre as subáreas do topo das ordenações emnenhuma das medidas, por exemplo, as subáreas de performance e confiabilidadeem hardware (B.8) e reconhecimento de padrões (I.5).

Page 77: Uma análise cienciométrica das subáreas da ciência da computação

75

Existem na literatura vários trabalhos de análise sobre a pesquisa em ciência dacomputação. Entretanto, a maioria dos trabalhos se concentra na pesquisa em computaçãoem determinados países [15, 16], ou em universidades [68]. Ou ainda, utilizam coleçõesmuito pequenas e focadas em determinadas subáreas da computação [60, 18]. Não é deconhecimento do autor desse trabalho nenhum trabalho que analise as subáreas da ciênciada computação tão amplamente como este trabalho desenvolvido. Além disso, a análisetemporal, biênio a biênio, do comportamento de subáreas e de como tem se deslocadoa tendência da pesquisa na ciência da computação ao longo dos anos é uma avaliaçãocompletamente nova. Contudo, o desenvolvimento deste trabalho encontrou algumasdificuldades e limitações, que podem ser analisadas como oportunidades na exploraçãodo estudo, comentadas a seguir:

1. a falta na literatura de medidas bibliométricas ou de metodologias bem estabeleci-das para a análise bibliométrica cronológica;

2. a raridade de trabalhos na literatura que abordem o estudo bibliométrico de subá-reas;

3. a falta da disponibilidade de fácil acesso a coleções bibliográficas digitais, classifi-cadas em subáreas e com informações cronológicas abrangentes, no sentido de in-cluírem publicações suficientes em cada subárea, de modo a representar uma amos-tra mais significativa das publicações em ciência da computação.

Trabalhos Futuros

Após a realização do presente trabalho é possível destacar novos aspectos a se-rem aprofundados como complemento para a exploração de informações em publicaçõescientíficas. Um destes aspectos corresponde a desambiguação do nome das referênciasexternas, dessa forma com a interligação à outras bibliotecas digitais, seria possível, porexemplo um cálculo mais aprofundado e com maior qualidade na resposta para as medi-das.

A alteração na ordenação das medidas com maior relevância para as categoriasprimárias do que as secundárias, principalmente após a reestruturação da nova CCS quedefine melhor as regras de indexação para os autores.

E por fim, o desenvolvimento de uma ferramenta que possa em tempo realconectar às bibliotecas digitais que disponibilizam os metadados livremente para acesso.Por exemplo a base de dados da CiteSeerX, que utiliza do padrão de metadados dublin

core, para os disponibilizarem para coleta por meio do protocolo OAI-PMH 1.

1http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm

Page 78: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas

[1] 1998 ACM Computing Classification System. http://www.acm.org/about/

class/1998. [Online; acesso feito em 01-Outubro-2013].

[2] ACM Digital Library. http://dl.acm.org/. [Online; acesso feito em 01-Outubro-

2013].

[3] The Full CCS Classification Tree. http://www.acm.org/about/class/

ccs98-html. [Online; acesso feito em 01-Outubro-2013].

[4] Harzing’s Publish and Perish. http://www.harzing.com/pop.htm. [Online;

acesso feito em 01-Outubro-2013].

[5] How to Use the Computing Classification System. http://www.acm.org/

about/class/how-to-use. [Online; acesso feito em 01-Outubro-2013].

[6] IEEE. http://ieeexplore.ieee.org/. [Online; acesso feito em 01-Outubro-

2013].

[7] INSPEC. http://www.iee.org/Publish/INSPEC/. [Online; acesso feito em 01-

Outubro-2013].

[8] Introduction to the 1998 ACM Computing Classification System. http://

www.acm.org/about/class/ccs98-intro/. [Online; acesso feito em 01-Outubro-

2013].

[9] QuadSearch. http://quadsearch.csd.auth.gr/. [Online; acesso feito em 01-

Outubro-2013].

[10] Report of the CCS Update Committee. http://www.acm.org/about/class/

ccsup.pdf. [Online; acesso feito em 01-Outubro-2013].

[11] scHolar index. http://www.cs.odu.edu/~mln/pubs/2007-10-09-h-index.

html. [Online; acesso feito em 01-Outubro-2013].

[12] SHINE - Simple HINdex Estimation. http://shine.icomp.ufam.edu.br/. [On-

line; acesso feito em 01-Outubro-2013].

Page 79: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 77

[13] What is ACM? http://www.acm.org/about/. [Online; acesso feito em 01-

Outubro-2013].

[14] AKRITIDIS, L.; KATSAROS, D.; BOZANIS, P. Identifying attractive research fields

for new scientists. Scientometrics, 91(3):869–894, June 2012.

[15] ARRUDA, D.; BEZERRA, F.; NERIS, V.; ROCHA DE TORO, P.; WAINERA, J. Brazilian

computer science research: Gender and regional distributions. Scientometrics,

volume(79):651–665, 2009.

[16] BAKRI, A.; WILLETT, P. Computer science research in Malaysia: a bibliometric

analysis. Aslib Proceedings, volume(63):321–335, 2011.

[17] BAR-ILAN, J. The h -index of h -index and of other informetric topics. Sciento-

metrics, 75(3):591–605, 2008.

[18] BARTNECK, C.; HU, J. Scientometric analysis of the CHI proceedings. In:

Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,

CHI ’09, p. 699–708, New York, NY, USA, 2009. ACM.

[19] BARTNECK, C.; KOKKELMANS, S. Detecting h-index manipulation through self-

citation analysis. Scientometrics, 87(1):85–98, 2011.

[20] BERGSMA, S.; POST, M.; YAROWSKY, D. Stylometric analysis of scientific articles.

In: Proceedings of the 2012 Conference of the North American Chapter of the

Association for Computational Linguistics: Human Language Technologies, NAACL

HLT ’12, p. 327–337, Stroudsburg, PA, USA, 2012. Association for Computational

Linguistics.

[21] BIANCHINI, M.; GORI, M.; SCARSELLI, F. Inside PageRank. ACM Trans. Internet

Technol., 5(1):92–128, Feb. 2005.

[22] BOLLEN, J.; RODRIGUEZ, M. A.; DE SOMPEL, H. V. Journal Status. Computing

Research Repository - CORR, volume(30):–, 2006.

[23] BRAS-AMORÓS, M.; DOMINGO-FERRER, J.; TORRA, V. A Bibliometric Index Based

on Collaboration Distances. In: Torra, V.; Narukawa, Y.; Daumas, M., editors,

Modeling Decisions for Artificial Intelligence, volume 6408 de Lecture Notes in

Computer Science, p. 5–6. Springer Berlin Heidelberg, Berlin, Heidelberg, 2010.

[24] BRAS-AMORÓS, M.; DOMINGO-FERRER, J.; TORRA, V. A bibliometric index based

on the collaboration distance between cited and citing authors. Journal of

Informetrics, 5(2):248 – 264, 2011.

Page 80: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 78

[25] BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search en-

gine. Computer Networks and ISDN Systems, 30(1–7):107 – 117, 1998. Proceedings

of the Seventh International World Wide Web Conference.

[26] CARO, L. D.; CATALDI, M.; SCHIFANELLA, C. The d-index: Discovering depen-

dences among scientific collaborators from their bibliographic data records.

Scientometrics, 93(3):583–607, 2012.

[27] CHEN, J.; KONSTAN, J. A. Conference paper selectivity and impact. Commun.

ACM, 53(6):79–83, June 2010.

[28] CHENG, S.; YUNTAO, P.; JUNPENG, Y.; HONG, G.; ZHENGLU, Y.; ZHIYU, H. Page-

Rank, HITS and Impact Factor for Journal Ranking. In: 2009 WRI World Congress

on Computer Science and Information Engineering, volume 6, p. 285–290, 2009.

[29] COLE, F. J.; EALES, N. B. The history of comparative anatomy. Part I: A

statistical analysis of the literature. Science Progress, 11:578–596, 1917.

[30] DA FONSECA, E. N. Bibliografia estatística e bibliometria: uma reivindicação de

prioridades. Ciência da Informação, 2(1):5–7, 1973.

[31] DE SUTTER, B.; VAN DEN OORD, A. To be or not to be cited in computer science.

Commun. ACM, 55(8):69–75, Aug. 2012.

[32] DHYANI, D.; NG, W. K.; BHOWMICK, S. S. A survey of Web metrics. ACM Comput.

Surv., 34(4):469–503, Dec. 2002.

[33] DING, C.; HE, X.; HUSBANDS, P.; ZHA, H.; SIMON, H. D. PageRank, HITS and a

unified framework for link analysis. In: Proceedings of the 25th annual international

ACM SIGIR Conference on Research and Development in Information Retrieval,

SIGIR ’02, p. 353–354, New York, NY, USA, 2002. ACM.

[34] EGGHE, L.; ROUSSEAU, R. Introduction to Informetrics: Quantitative Methods in

Library, Documentation and Information Science. Elsevier, 1990.

[35] EL-ARINI, K.; GUESTRIN, C. Beyond keyword search: discovering relevant sci-

entific literature. In: Proceedings of the 17th ACM SIGKDD International Conference

on Knowledge Discovery and Data Mining, KDD ’11, p. 439–447, New York, NY, USA,

2011. ACM.

[36] ELMACIOGLU, E.; LEE, D.; NASCIMENTO, M. A. Bibliometric Landscape of the

ACM Digital Library. Technical report, Pike Group, 2006.

Page 81: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 79

[37] FRANCESCHET, M. A comparison of bibliometric indicators for computer sci-

ence scholars and journals on Web of Science and Google Scholar. Scientome-

trics, volume(83)(1):243–258, 2010.

[38] FRANCESCHET, M. The role of conference publications in CS. Commun. ACM,

53:129–132, Dec 2010.

[39] FREYNE, J.; COYLE, L.; SMYTH, B.; CUNNINGHAM, P. Relative status of journal

and conference publications in computer science. Commun. ACM, 53(11):124–

132, Nov. 2010.

[40] GARFIELD, E. Citation analysis as a tool in journal evaluation. Science,

178(60):471–479, Nov. 1972.

[41] GARFIELD, E.; MERTON, R. K. Citation Indexing - Its Theory and Application in

Science, Technology, and Humanities. Upeen, Jan. 1979.

[42] GARFIELD, E. Citation Indexes for Science: A New Dimension in Documentation

through Association of Ideas. Science, 122(3159):108–111, 1955.

[43] GETOOR, L. Link-based Classification. In: Maulik, U.; Holder, L.; Cook, D., editors,

Advanced Methods for Knowledge Discovery from Complex Data. Springer-Verlag,

2005.

[44] GOODRUM, A. A.; MCCAIN, K. W.; LAWRENCE, S.; LEE GILES, C. Scholarly

publishing in the Internet age: a citation analysis of computer science literature.

Information Processing & Management, 37(5):661–675, 2001.

[45] HIRSCH, J. E. An index to quantify an individual’s scientific research output.

Proceedings of the National Academy of Sciences of the United States of America,

102(46):16569–16572, 2005.

[46] HOOD, W. W.; WILSON, C. S. The literature of bibliometrics, scientometrics and

informetrics. Scientometrics, 52(2):291–314, Oct. 2001.

[47] HULME, E. Statistical Bibliography in Relation to the Growth of Modern Civi-

lization: Two Lectures Delivered in the University of Cambridge in May, 1922.

[Sandars lectures, Cambridge University]. The Author, 1923.

[48] JO, Y.; HOPCROFT, J. E.; LAGOZE, C. The Web of Topics: Discovering the

Topology of Topic Evolution in a Corpus. In: Proceedings of the 20th international

conference on World wide web, WWW ’11, p. 257–266, New York, NY, USA, 2011.

ACM.

Page 82: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 80

[49] JO, Y.; LAGOZE, C.; GILES, C. L. Detecting research topics via the correlation

between graphs and texts. In: Proceedings of the 13th ACM SIGKDD international

conference on Knowledge discovery and data mining, KDD ’07, p. 370–379, New

York, NY, USA, 2007. ACM.

[50] KLEINBERG, J. M. Authoritative sources in a hyperlinked environment. J. ACM,

46(5):604–632, Sept. 1999.

[51] KUMAR, S.; GARG, K. C. Scientometrics of computer science research in India

and China. Scientometrics, volume(64):121–132, 2005.

[52] LARIVIÈRE, V. The decade of metrics? Examining the evolution of metrics within

and outside LIS. Bulletin of the American Society for Information Science and

Technology, 38(6):12–17, 2012.

[53] LAWANI, S. M. Bibliometrics: Its Theoretical Foundations, Methods and Ap-

plications. Libri - International Journal of Libraries and Information Services,

volume(31):294–315, Jan 1981.

[54] LEHMANN, S.; JACKSON, A. D.; LAUTRUP, B. E. Measures for measures. Nature,

volume(444):1003 – 1004, 2006.

[55] LERMAN, K.; GHOSH, R.; KANG, J. H. Centrality metric for dynamic networks. In:

Proceedings of the Eighth Workshop on Mining and Learning with Graphs, MLG ’10,

p. 70–77, New York, NY, USA, 2010. ACM.

[56] LEYDESDORFF, L.; ZHOU, P.; BORNMANN, L. How can journal impact factors

be normalized across fields of science? An assessment in terms of per-

centile ranks and fractional counts. Computing Research Repository - CORR,

volume(0668):–, 2012.

[57] LEYDESDORFF, L.; ZHOU, P.; BORNMANN, L. How can journal impact factors

be normalized across fields of science? An assessment in terms of percen-

tile ranks and fractional counts. JASIST - Journal of the American Society for

Information Science and Technology, volume(64)(1):96–107, Jan. 2013.

[58] MA, N.; GUAN, J.; ZHAO, Y. Bringing PageRank to the citation analysis. Informa-

tion Processing & Management, 44(2):800–810, Mar. 2008. Evaluating Exploratory

Search Systems Digital Libraries in the Context of Users’ Broader Activities.

[59] MACIAS-CHAPULA, C. A. O papel da informetria e da cienciometria e sua

perspectiva nacional e internacional. Ciência da Informação, 27(2):134–140,

Maio/Ago 1998.

Page 83: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 81

[60] MANN, G. S.; MIMNO, D.; MCCALLUM, A. Bibliometric impact measures levera-

ging topic analysis. In: Proceedings of the 6th ACM/IEEE-CS joint conference on

Digital libraries, JCDL ’06, p. 65–74, New York, NY, USA, 2006. ACM.

[61] MCGOVERN, A.; FRIEDLAND, L.; HAY, M.; GALLAGHER, B.; FAST, A.; NEVILLE, J.;

JENSEN, D. Exploiting relational structure to understand publication patterns

in high-energy physics. SIGKDD Explor. Newsl., 5(2):165–172, Dec. 2003.

[62] MEHO, L. I.; ROGERS, Y. Citation counting, citation ranking, and h-index of

human-computer interaction researchers: A comparison of Scopus and Web

of Science. JASIST - Journal of the American Society for Information Science and

Technology, 59(11):1711–1726, Sept. 2008.

[63] OTLET, P. La Statistique internationale des imprimes. IIB Bulletin, 1900.

[64] OTLET, P. Traité de documentation: le livre sur le livre, théorie et pratique.

Editiones Mundaneum, Palais mondial, Bruxelles. Editiones Mundaneum, 1934.

[65] OTLET, P.; DA FONSECA, E. N. Bibliometria: teoria e prática. Cultrix, 1986.

[66] PAGE, L.; BRIN, S.; MOTWANI, R.; WINOGRAD, T. The PageRank Citation Ranking:

Bringing Order to the Web. Technical report, Stanford InfoLab, 1999.

[67] PRITCHARD, A. Statistical bibliography or bibliometrics? Journal of documenta-

tion, 25(4):348–349, 1969.

[68] REN, J.; TAYLOR, R. N. Automatic and versatile publications ranking for rese-

arch institutions and scholars. Communications of the ACM, 50(6):81–85, June

2007.

[69] ROUS, B. Major update to ACM’s Computing Classification System. Communi-

cations of the ACM, 55(11):12–12, Nov. 2012.

[70] SAAD, G. Exploring the h-index at the author and journal levels using bibli-

ometric data of productive consumer scholars and business-related journals

respectively. Scientometrics, 69(1):117–120, 2006.

[71] SANDERSON, M. Revisiting h measured on UK LIS and IR academics. JASIST -

American Society for Information Science, 59(7):1184–1190, May 2008.

[72] SENGUPTA, I. N. Bibliometrics, informetrics, scientometrics and librametrics:

An overview. Libri - International Journal of Libraries and Information Services,

42(2):99–135, Jan 1992.

Page 84: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 82

[73] SJOBERG, D. I. K. Confronting the myth of rapid obsolescence in computing

research. Communications of the ACM, 53(9):62–67, Sept. 2010.

[74] SOULIER, L.; BEN JABEUR, L.; TAMINE, L.; BAHSOUN, W. BibRank: a language-

based model for co-ranking entities in bibliographic networks. In: Proceedings

of the 12th ACM/IEEE-CS joint conference on Digital Libraries, JCDL ’12, p. 61–70,

New York, NY, USA, 2012. ACM.

[75] TAGUE-SUTCLIFFE, J. An introduction to informetrics. Information Processing &

Management, 28(1):1–3, Jan. 1992.

[76] TANEJA, A.; SINGH, A.; RAJA, M. K. Computing journals and their emerging roles

in knowledge exchange. Communications of the ACM, 52(11):125–131, Nov. 2009.

[77] THELWALL, M. Bibliometrics to webometrics. Journal of Information Science,

34(4):605–621, 2008.

[78] VAN ECK, N. J.; WALTMAN, L.; DEKKER, R.; VAN DEN BERG, J. A comparison of

two techniques for bibliometric mapping: Multidimensional scaling and VOS.

JASIST - American Society for Information Science, 61(12):2405–2416, Dec. 2010.

[79] WALTMAN, L.; ECK, N. V. A Taxonomy of Bibliometric Performance Indicators

Based on the Property of Consistency. Research Paper ERS-2009-014-LIS,

Erasmus Research Institute of Management (ERIM), ERIM is the joint research

institute of the Rotterdam School of Management, Erasmus University and the

Erasmus School of Economics (ESE) at Erasmus University Rotterdam, 2009.

[80] WALTMAN, L.; VAN ECK, N. J. The inconsistency of the h-index. Computing

Research Repository - CORR, abs/1108.3901:–, 2011.

[81] WANG, J. Citation time window choice for research impact evaluation. Sciento-

metrics, 94:851–872, March 2013.

[82] YAN, E.; DING, Y. Discovering author impact: A PageRank perspective. Informa-

tion Processing & Management, 47(1):125–134, Jan. 2011.

[83] YAN, S.; LEE, D. Toward alternative measures for ranking venues: a case of

database research community. In: Proceedings of the 7th ACM/IEEE-CS Joint

Conference on Digital Libraries, JCDL ’07, p. 235–244, New York, NY, USA, 2007.

ACM.

[84] YANG, K.; MEHO, L. CiteSearch: next-generation citation analysis. In: Procee-

dings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries, JCDL ’07, p.

101–102, New York, NY, USA, 2007. ACM.

Page 85: Uma análise cienciométrica das subáreas da ciência da computação

Referências Bibliográficas 83

[85] YU-WEI CHANG, Y.-W.; HUANG, M.-H. A study of the evolution of interdisci-

plinarity in library and information science: using three bibliometric methods.

JASIST - American Society for Information Science, 63(1):22–33, Jan. 2012.

[86] ZHAO, D.; LOGAN, E. Citation analysis using scientific publications on the

Web as data source: A case study in the XML research area. Scientometrics,

54(3):449–472, 2002.

[87] ZHUANG, Z.; ELMACIOGLU, E.; LEE, D.; GILES, C. L. Measuring conference

quality by mining program committee characteristics. In: Proceedings of the

7th ACM/IEEE-CS Joint Conference on Digital Libraries, JCDL ’07, p. 225–234, New

York, NY, USA, 2007. ACM.

Page 86: Uma análise cienciométrica das subáreas da ciência da computação

APÊNDICE AThe 1998 ACM Computing ClassificationSystem - Versão simplificada

Copyright 2010, by the Association for Computing Machinery, Inc. Permission to makedigital or hard copies of part or all of this work for personal or classroom use is grantedwithout fee provided that copies are not made or distributed for profit or commercialadvantage and that copies bear this notice and the full citation on the first page. To copyotherwise, to republish, to post on servers, or to redistribute to lists, requires priorspecific permission and/or a fee. Request permission to republish from: PublicationsDept., ACM, Inc. Fax +1 (212) 869-0481 or E-mail [email protected]. General LiteratureA.0 GENERALA.1 INTRODUCTORY AND SURVEYA.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries)A.m MISCELLANEOUSB. HardwareB.0 GENERALB.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2)B.1.0 GeneralB.1.1 Control Design StylesB.1.2 Control Structure Performance Analysis and Design AidsB.1.3 Control Structure Reliability, Testing, and Fault-Tolerance** (B.8)B.1.4 Microprogram Design Aids (D.2.2, D.2.4, D.3.2, D.3.4)B.1.5 Microcode ApplicationsB.1.m MiscellaneousB.2 ARITHMETIC AND LOGIC STRUCTURESB.2.0 GeneralB.2.1 Design Styles (C.1.1-2)B.2.2 Performance Analysis and Design Aids** (B.8)B.2.3 Reliability, Testing, and Fault-Tolerance** (B.8)

Page 87: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 85

B.2.4 High-Speed Arithmetic (NEW)B.2.m MiscellaneousB.3 MEMORY STRUCTURESB.3.0 GeneralB.3.1 Semiconductor Memories (NEW) (B.7.1)B.3.2 Design Styles (D.4.2)B.3.3 Performance Analysis and Design Aids** (B.8, C.4)B.3.4 Reliability, Testing, and Fault-Tolerance** (B.8)B.3.m MiscellaneousB.4 INPUT/OUTPUT AND DATA COMMUNICATIONSB.4.0 GeneralB.4.1 Data Communications DevicesB.4.2 Input/Output DevicesB.4.3 Interconnections (Subsystems)B.4.4 Performance Analysis and Design Aids** (B.8)B.4.5 Reliability, Testing, and Fault-Tolerance** (B.8)B.4.m MiscellaneousB.5 REGISTER-TRANSFER-LEVEL IMPLEMENTATIONB.5.0 GeneralB.5.1 DesignB.5.2 Design AidsB.5.3 Reliability and Testing** (B.8)B.5.m MiscellaneousB.6 LOGIC DESIGNB.6.0 GeneralB.6.1 Design StylesB.6.2 Reliability and Testing** (B.8)B.6.3 Design AidsB.6.m MiscellaneousB.7 INTEGRATED CIRCUITSB.7.0 GeneralB.7.1 Types and Design StylesB.7.2 Design AidsB.7.3 Reliability and Testing** (B.8)B.7.m MiscellaneousB.8 PERFORMANCE AND RELIABILITY (C.4) (NEW)B.8.0 General (NEW)B.8.1 Reliability, Testing, and Fault-Tolerance (NEW)

Page 88: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 86

B.8.2 Performance Analysis and Design Aids (NEW)B.8.m Miscellaneous (NEW)B.m MISCELLANEOUSC. Computer Systems OrganizationC.0 GENERALC.1 PROCESSOR ARCHITECTURESC.1.0 GeneralC.1.1 Single Data Stream ArchitecturesC.1.2 Multiple Data Stream Architectures (Multiprocessors)C.1.3 Other Architecture StylesC.1.4 Parallel Architectures (NEW)C.1.m MiscellaneousC.2 COMPUTER-COMMUNICATION NETWORKSC.2.0 GeneralC.2.1 Network Architecture and DesignC.2.2 Network ProtocolsC.2.3 Network OperationsC.2.4 Distributed SystemsC.2.5 Local and Wide-Area Networks (REVISED)C.2.6 Internetworking (C.2.2) (NEW)C.2.m MiscellaneousC.3 SPECIAL-PURPOSE AND APPLICATION-BASED SYSTEMS (J.7)C.4 PERFORMANCE OF SYSTEMSC.5 COMPUTER SYSTEM IMPLEMENTATIONC.5.0 GeneralC.5.1 Large and Medium (“Mainframe”) ComputersC.5.2 Minicomputers**C.5.3 MicrocomputersC.5.4 VLSI SystemsC.5.5 Servers (NEW)C.5.m MiscellaneousC.m MISCELLANEOUSD. SoftwareD.0 GENERALD.1 PROGRAMMING TECHNIQUES (E)D.1.0 GeneralD.1.1 Applicative (Functional) ProgrammingD.1.2 Automatic Programming (I.2.2)

Page 89: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 87

D.1.3 Concurrent ProgrammingD.1.4 Sequential ProgrammingD.1.5 Object-oriented ProgrammingD.1.6 Logic ProgrammingD.1.7 Visual ProgrammingD.1.m MiscellaneousD.2 SOFTWARE ENGINEERING (K.6.3)D.2.0 General (K.5.1)D.2.1 Requirements/Specifications (D.3.1)D.2.2 Design Tools and Techniques (REVISED)D.2.3 Coding Tools and Techniques (REVISED)D.2.4 Software/Program Verification (F.3.1) (REVISED)D.2.5 Testing and DebuggingD.2.6 Programming EnvironmentsD.2.7 Distribution, Maintenance, and Enhancement (REVISED)D.2.8 Metrics (D.4.8)D.2.9 Management (K.6.3, K.6.4)D.2.10 Design** (D.2.2)D.2.11 Software Architectures (NEW)D.2.12 Interoperability (NEW)D.2.13 Reusable Software (NEW)D.2.m MiscellaneousD.3 PROGRAMMING LANGUAGESD.3.0 GeneralD.3.1 Formal Definitions and Theory (D.2.1, F.3.1-2, F.4.2-3)D.3.2 Language ClassificationsD.3.3 Language Constructs and Features (E.2)D.3.4 ProcessorsD.3.m MiscellaneousD.4 OPERATING SYSTEMS (C)D.4.0 GeneralD.4.1 Process ManagementD.4.2 Storage ManagementD.4.3 File Systems Management (E.5)D.4.4 Communications Management (C.2)D.4.5 ReliabilityD.4.6 Security and Protection (K.6.5)D.4.7 Organization and Design

Page 90: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 88

D.4.8 Performance (C.4, D.2.8, I.6)D.4.9 Systems Programs and UtilitiesD.4.m MiscellaneousD.m MISCELLANEOUSE. DataE.0 GENERALE.1 DATA STRUCTURESE.2 DATA STORAGE REPRESENTATIONSE.3 DATA ENCRYPTIONE.4 CODING AND INFORMATION THEORY (H.1.1)E.5 FILES (D.4.3, F.2.2, H.2)E.m MISCELLANEOUSF. Theory of ComputationF.0 GENERALF.1 COMPUTATION BY ABSTRACT DEVICESF.1.0 GeneralF.1.1 Models of Computation (F.4.1)F.1.2 Modes of ComputationF.1.3 Complexity Measures and Classes (F.2) (REVISED)F.1.m MiscellaneousF.2 ANALYSIS OF ALGORITHMS AND PROBLEM COMPLEXITY (B.6-7, F.1.3)F.2.0 GeneralF.2.1 Numerical Algorithms and Problems (G.1, G.4, I.1)F.2.2 Nonnumerical Algorithms and Problems (E.2-5, G.2, H.2-3)F.2.3 Tradeoffs between Complexity Measures (F.1.3)F.2.m MiscellaneousF.3 LOGICS AND MEANINGS OF PROGRAMS F.3.0 GeneralF.3.1 Specifying and Verifying and Reasoning about Programs (D.2.1, D.2.4, D.3.1, E.1)F.3.2 Semantics of Programming Languages (D.3.1)F.3.3 Studies of Program Constructs (D.3.2-3)F.3.m MiscellaneousF.4 MATHEMATICAL LOGIC AND FORMAL LANGUAGESF.4.0 GeneralF.4.1 Mathematical Logic (F.1.1, I.2.2-4)F.4.2 Grammars and Other Rewriting Systems (D.3.1)F.4.3 Formal Languages (D.3.1)F.4.m MiscellaneousF.m MISCELLANEOUS

Page 91: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 89

G. Mathematics of ComputingG.0 GENERALG.1 NUMERICAL ANALYSISG.1.0 GeneralG.1.1 Interpolation (I.3.5, I.3.7)G.1.2 ApproximationG.1.3 Numerical Linear AlgebraG.1.4 Quadrature and Numerical Differentiation (F.2.1)G.1.5 Roots of Nonlinear EquationsG.1.6 OptimizationG.1.7 Ordinary Differential EquationsG.1.8 Partial Differential EquationsG.1.9 Integral EquationsG.1.10 Applications (NEW)G.1.m MiscellaneousG.2 DISCRETE MATHEMATICSG.2.0 GeneralG.2.1 Combinatorics (F.2.2)G.2.2 Graph Theory (F.2.2)G.2.3 Applications (NEW)G.2.m MiscellaneousG.3 PROBABILITY AND STATISTICSG.4 MATHEMATICAL SOFTWAREG.m MISCELLANEOUSH. Information SystemsH.0 GENERALH.1 MODELS AND PRINCIPLESH.1.0 GeneralH.1.1 Systems and Information Theory (E.4)H.1.2 User/Machine SystemsH.1.m MiscellaneousH.2 DATABASE MANAGEMENT (E.5)H.2.0 General H.2.1 Logical DesignH.2.2 Physical DesignH.2.3 Languages (D.3.2)H.2.4 SystemsH.2.5 Heterogeneous DatabasesH.2.6 Database Machines

Page 92: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 90

H.2.7 Database AdministrationH.2.8 Database ApplicationsH.2.m MiscellaneousH.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and IndexingH.3.2 Information StorageH.3.3 Information Search and RetrievalH.3.4 Systems and SoftwareH.3.5 Online Information ServicesH.3.6 Library AutomationH.3.7 Digital Libraries (NEW)H.3.m MiscellaneousH.4 INFORMATION SYSTEMS APPLICATIONSH.4.0 GeneralH.4.1 Office Automation (I.7)H.4.2 Types of SystemsH.4.3 Communications ApplicationsH.4.m MiscellaneousH.5 INFORMATION INTERFACES AND PRESENTATION (e.g., HCI) (I.7)H.5.0 GeneralH.5.1 Multimedia Information SystemsH.5.2 User Interfaces (D.2.2, H.1.2, I.3.6)H.5.3 Group and Organization InterfacesH.5.4 Hypertext/Hypermedia (I.7, J.7) (NEW)H.5.5 Sound and Music Computing (J.5) (NEW)H.5.m Miscellaneous (NEW)H.m MISCELLANEOUSI. Computing MethodologiesI.0 GENERALI.1 SYMBOLIC AND ALGEBRAIC MANIPULATION (REVISED)I.1.0 GeneralI.1.1 Expressions and Their Representation (E.1-2)I.1.2 Algorithms (F.2.1-2)I.1.3 Languages and Systems (D.3.2-3, F.2.2)I.1.4 ApplicationsI.1.m MiscellaneousI.2 ARTIFICIAL INTELLIGENCE

Page 93: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 91

I.2.0 GeneralI.2.1 Applications and Expert Systems (H.4, J)I.2.2 Automatic Programming (D.1.2, F.3.1, F.4.1)I.2.3 Deduction and Theorem Proving (F.4.1)I.2.4 Knowledge Representation Formalisms and Methods (F.4.1)I.2.5 Programming Languages and Software (D.3.2)I.2.6 Learning (K.3.2)I.2.7 Natural Language ProcessingI.2.8 Problem Solving, Control Methods, and Search (F.2.2)I.2.9 RoboticsI.2.10 Vision and Scene Understanding (I.4.8, I.5)I.2.11 Distributed Artificial IntelligenceI.2.m MiscellaneousI.3 COMPUTER GRAPHICSI.3.0 GeneralI.3.1 Hardware Architecture (B.4.2)I.3.2 Graphics Systems (C.2.1, C.2.4, C.3)I.3.3 Picture/Image GenerationI.3.4 Graphics UtilitiesI.3.5 Computational Geometry and Object ModelingI.3.6 Methodology and TechniquesI.3.7 Three-Dimensional Graphics and RealismI.3.8 ApplicationsI.3.m MiscellaneousI.4 IMAGE PROCESSING AND COMPUTER VISION (REVISED)I.4.0 GeneralI.4.1 Digitization and Image Capture (REVISED)I.4.2 Compression (Coding) (E.4)I.4.3 EnhancementI.4.4 RestorationI.4.5 ReconstructionI.4.6 SegmentationI.4.7 Feature MeasurementI.4.8 Scene AnalysisI.4.9 ApplicationsI.4.10 Image RepresentationI.4.m MiscellaneousI.5 PATTERN RECOGNITION

Page 94: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 92

I.5.0 GeneralI.5.1 ModelsI.5.2 Design MethodologyI.5.3 ClusteringI.5.4 ApplicationsI.5.5 Implementation (C.3)I.5.m MiscellaneousI.6 SIMULATION AND MODELING (G.3)I.6.0 GeneralI.6.1 Simulation TheoryI.6.2 Simulation LanguagesI.6.3 ApplicationsI.6.4 Model Validation and AnalysisI.6.5 Model DevelopmentI.6.6 Simulation Output AnalysisI.6.7 Simulation Support SystemsI.6.8 Types of SimulationI.6.m MiscellaneousI.7 DOCUMENT AND TEXT PROCESSING (H.4-5) (REVISED)I.7.0 GeneralI.7.1 Document and Text Editing (REVISED)I.7.2 Document PreparationI.7.3 Index Generation**I.7.4 Electronic Publishing (H.5.4, J.7) (NEW)I.7.5 Document Capture (I.4.1) (NEW)I.7.m MiscellaneousI.m MISCELLANEOUSJ. Computer ApplicationsJ.0 GENERALJ.1 ADMINISTRATIVE DATA PROCESSINGJ.2 PHYSICAL SCIENCES AND ENGINEERINGJ.3 LIFE AND MEDICAL SCIENCESJ.4 SOCIAL AND BEHAVIORAL SCIENCESJ.5 ARTS AND HUMANITIESJ.6 COMPUTER-AIDED ENGINEERINGJ.7 COMPUTERS IN OTHER SYSTEMS (C.3)J.m MISCELLANEOUSK. Computing Milieux

Page 95: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 93

K.0 GENERALK.1 THE COMPUTER INDUSTRYK.2 HISTORY OF COMPUTINGK.3 COMPUTERS AND EDUCATIONK.3.0 GeneralK.3.1 Computer Uses in EducationK.3.2 Computer and Information Science EducationK.3.m MiscellaneousK.4 COMPUTERS AND SOCIETYK.4.0 GeneralK.4.1 Public Policy IssuesK.4.2 Social IssuesK.4.3 Organizational ImpactsK.4.4 Electronic Commerce (J.1) (NEW)K.4.m MiscellaneousK.5 LEGAL ASPECTS OF COMPUTINGK.5.0 GeneralK.5.1 Hardware/Software Protection (REVISED)K.5.2 Governmental IssuesK.5.m MiscellaneousK.6 MANAGEMENT OF COMPUTING AND INFORMATION SYSTEMSK.6.0 GeneralK.6.1 Project and People ManagementK.6.2 Installation ManagementK.6.3 Software Management (D.2.9)K.6.4 System ManagementK.6.5 Security and Protection (D.4.6, K.4.2)K.6.m MiscellaneousK.7 THE COMPUTING PROFESSIONK.7.0 GeneralK.7.1 OccupationsK.7.2 OrganizationsK.7.3 Testing, Certification, and LicensingK.7.4 Professional Ethics (K.4) (NEW)K.7.m MiscellaneousK.8 PERSONAL COMPUTINGK.8.0 GeneralK.8.1 Application Packages

Page 96: Uma análise cienciométrica das subáreas da ciência da computação

Apêndice A 94

K.8.2 HardwareK.8.3 Management/MaintenanceK.8.m Miscellaneous (NEW)K.m MISCELLANEOUS