9
SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional II Encontro Mineiro de Modelagem Computacional Juiz De Fora, MG, 28-30 de Maio De 2014 GENEALOGIA CIENTÍFICA: UMA ANÁLISE HIERÁRQUICA DE PESQUISADORES ORIENTADORES Tales H. J. Moreira [email protected] Thiago M. R. Dias [email protected] Leandro R. F. Santos [email protected] Gray F. Moita [email protected] Programa de Pós-graduação em Modelagem Matemática e Computacional Centro Federal de Educação Tecnológica de Minas Gerais Av. Amazonas, 7576, Nova Gameleira, 30510-000, Belo Horizonte, MG Abstract. Os currículos da Plataforma Lattes têm sido objeto de estudo de diversos trabalhos. Estes currículos possuem informações relevantes para análises tanto quantitativas como qualitativas dos pesquisadores brasileiros. Este trabalho tem como objetivo analisar a genealogia científica de pesquisadores ou grupo de pesquisadores com currículos cadastrados na plataforma. Para isto, com base em dados de orientações e supervisões identificadas nos currículos é possível construir árvores de pesquisadores que caracterizam de forma hierárquica a genealogia de seu histórico de orientações bem como a de seus orientados. Keywords: Recuperação da Informação, Árvore Genealógica, Identificação de Colaboração.

GENEALOGIA CIENTÍFICA: UMA ANÁLISE HIERÁRQUICA DE ... · identificadas nos currículos é possível construir árvores de pesquisadores que caracterizam de forma hierárquica a

Embed Size (px)

Citation preview

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional II Encontro Mineiro de Modelagem Computacional Juiz De Fora, MG, 28-30 de Maio De 2014

GENEALOGIA CIENTÍFICA: UMA ANÁLISE HIERÁRQUICA DE PESQUISADORES ORIENTADORES

Tales H. J. Moreira [email protected]

Thiago M. R. Dias [email protected]

Leandro R. F. Santos [email protected]

Gray F. Moita [email protected]

Programa de Pós-graduação em Modelagem Matemática e Computacional

Centro Federal de Educação Tecnológica de Minas Gerais

Av. Amazonas, 7576, Nova Gameleira, 30510-000, Belo Horizonte, MG

Abstract. Os currículos da Plataforma Lattes têm sido objeto de estudo de diversos trabalhos. Estes currículos possuem informações relevantes para análises tanto quantitativas como qualitativas dos pesquisadores brasileiros. Este trabalho tem como objetivo analisar a genealogia científica de pesquisadores ou grupo de pesquisadores com currículos cadastrados na plataforma. Para isto, com base em dados de orientações e supervisões identificadas nos currículos é possível construir árvores de pesquisadores que caracterizam de forma hierárquica a genealogia de seu histórico de orientações bem como a de seus orientados.

Keywords: Recuperação da Informação, Árvore Genealógica, Identificação de Colaboração.

Genealogia Científica: Uma Análise Hierárquica de Instituições e pesquisadores orientadores

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

1 INTRODUÇÃO

Estruturas de dados do tipo árvores são frequentemente utilizadas em disciplinas como sistemas operacionais e engenharia de software visando representar vínculos ou relações entre seus elementos. Diferentemente de estruturas como filas e pilhas, árvores permitem apresentar seus elementos organizados de forma hierárquica tendo um vértice inicial denominado como raiz.

Árvores genealógicas podem ser definidas como uma estrutura que representa todo um histórico ou parte do histórico dos antepassados de um indivíduo. Trata-se de uma representação gráfica que apresenta de forma hierárquica os antepassados podendo ou não ter informações complementares que visam permitir um melhor entendimento do histórico de um indivíduo.

Diante disto, as árvores genealógicas científicas são caracterizadas como árvores que representam hierarquicamente o histórico de um orientador e todos os seus orientados. Logo, caracterizando uma rede genealógica científica é possível observar todo o histórico de um determinado orientador e como o seu conhecimento foi repassado ao longo do tempo.

Adicionalmente, informações como quantidade de publicações, área de atuação e projetos de pesquisa podem ser extraídos de todos os elementos que compõem a rede com o objetivo de se obter dados quantitativos que representam a difusão do conhecimento a partir de um orientador em particular.

Tendo em vista as possibilidades de visualização e entendimento do histórico de orientação e consequentemente de difusão do conhecimento de um determinado orientador, realizar a modelagem e caracterização de arvores genealógicas científicas surge como uma alternativa.

Para isto, dados sobre orientações bem como de características de cada um dos indivíduos que compõem a rede se faz necessário. Neste trabalho, são utilizados dados dos currículos Lattes que fazem parte da Plataforma Lattes sob coordenação do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico).

Todos os currículos que compõem a plataforma são analisados a partir de um determinado indivíduo que representa a raiz da árvore e todos os seus orientados são vinculados de forma hierárquica (nós intermediários) recursivamente, até que todos os nós intermediários não possuam mais orientações concluídas, se tornando nós folhas ou terminais.

De posse destas informações, a rede é modelada, podendo ser visualizada de diversas formas com auxílio de uma biblioteca que torna o processo interativo que permite navegar pelos nós da rede selecionando partes que representam sub-árvores.

Moreira, T. H. J., Dias, T. M. R., Santos, L. R. F., Moita, G. F. M

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional

ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

2 TRABALHOS RELACIONADOS

No trabalho de Miyahara (2011), é desenvolvido o conceito de genealogia acadêmica, utilizado para organizar, através de uma árvore genealógica, pesquisadores por meio de suas relações de orientação ou supervisão. Segundo o autor, as árvores genealógicas acadêmicas indicam comumente, a linhagem de um pesquisador. A ferramenta utilizada pelo autor obtém os Currículos (CVs) da Plataforma Lattes a partir do ID Lattes fornecido e guarda-os em um cache, processando e armazenando-os em uma estrutura de dados que permite gerenciar e acessar rapidamente as informações dos CVs. Também foi proposto um algoritmo para a identificação de nomes similares evitando assim a ambiguidade entre nomes de uma pessoa escrita de formas diferentes. Por fim, são gerados diferentes grafos em formatos que permitam a posterior visualização e análise por ferramenta externas/complementares.

Já em Mena-Chalco e Junior (2011) é apresentada uma ferramenta geração automática de árvores genealógicas individuais para cientistas/acadêmicos, cadastrados na Plataforma Lattes, através de suas relações de orientação ou supervisão concluída. Para cada membro do grupo de interesse, pode ser gerada automaticamente a ascendência (pais) e descendência (filhos) de orientação acadêmica. Caso o identificador Lattes do orientador/co-orientador ou do aluno seja identificado no currículo Lattes, o nó é expandido por mais um nível (a quantidade de níveis pode ser limitada por um valor informado pelo usuário).

Diferentemente dos trabalhos anteriores, este trabalho tem como objetivo analisar toda a base de pesquisadores que compõem a Plataforma Lattes, com baixo custo computacional, sendo necessário apenas informar quem será a raiz da árvore a ser gerada. Posteriormente, as árvores geradas podem ser manipuladas com o intuito de melhorar a visualização dos elementos que a compõem.

3 METODOLOGIA

Neste trabalho foram utilizados dados dos currículos Lattes. A Plataforma Lattes foi concebida para integrar os sistemas de informação das agências federais do Brasil, racionalizando o processo de gestão de Ciência e Tecnologia (C&T), tanto do ponto de vista do usuário quanto das agências de fomento e instituições de ensino e pesquisa.

A Plataforma Lattes representa a experiência do CNPq na integração de bases de dados de Currículos, de Grupos de pesquisa e de Instituições em um único Sistema de Informações. Sua dimensão atual se estende não só às ações de planejamento, gestão e operacionalização do fomento do CNPq, mas também de outras agências de fomento federais e estaduais, das fundações estaduais de apoio à ciência e tecnologia, das instituições de ensino superior e dos institutos de pesquisa. Além disso, se tornou estratégica não só para as atividades de planejamento e gestão, mas também para a formulação das políticas do Ministério de Ciência e Tecnologia e de outros órgãos governamentais da área de ciência, tecnologia e inovação.

Genealogia Científica: Uma Análise Hierárquica de Instituições e pesquisadores orientadores

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

O Currículo Lattes se tornou um padrão nacional no registro da vida pregressa e atual dos estudantes e pesquisadores do país, e é hoje adotado pela maioria das instituições de fomento, universidades e institutos de pesquisa do País. Por sua riqueza de informações e sua crescente confiabilidade e abrangência, se tornou elemento indispensável e compulsório à análise de mérito e competência dos pleitos de financiamentos na área de ciência e tecnologia. (CNPQ, 2014)

Diversos trabalhos para análise de dados científicos têm explorado a Plataforma Lattes como principal fonte de informações (Dias e Moita 2013; Dias et al. 2013; Mena-Chalco et al. 2012; Alves et al. 2011a; Alves et al. 2011b; Alves et al. 2011c; Fernandes et al. 2011; Fernandes et al. 2011).

Apesar dos dados dos currículos da Plataforma Lattes ser disponibilizados livremente, estes são visualizados através de interface de consulta que apresenta os currículos individualmente. Diante disto, técnicas e ferramentas para a extração e integração dos dados com outras bases de dados científicos para complementação das informações se fazem necessárias.

Para a extração dos currículos foi utilizado o framework de extração e integração de dados científicos, desenvolvido por Dias et al. (2013) para obtenção dos dados a serem analisados. Figura 1.

Figura 1. Framework de Extração e Integração de Dados Científicos. Dias et al.

Moreira, T. H. J., Dias, T. M. R., Santos, L. R. F., Moita, G. F. M

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional

ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

O framework realiza a extração dos dados da Plataforma Lattes, armazenando os currículos extraídos em formato XML (Extensible Markup Language) para posterior análise. Diante disto, é proposto um método recursivo que a partir de um currículo inicial (raiz), são extraídos todas as suas orientações concluídas. Alem de orientações concluídas, quaisquer outras informações existentes no currículo do orientador podem ser extraídas. Estes orientandos são inseridos em uma lista, em forma de dicionário, contendo informações do pesquisador, e a lista de seus orientados (filhos). Este processo se repete para cada orientado, até terminar o processamento de todos os orientados identificados nos currículos, representando o final da construção da árvore. Os dados resultantes desta caracterização são utilizados e as árvores são modeladas para análise.

4 RESULTADOS

Para a construção das árvores é necessário informar a raiz da árvore. Esta raiz representa um orientador e de posse de seu currículo, o método de extração de orientações obtém toda a sua lista de orientados, realizando este processo recursivamente, até obter um dicionário com todos os dados da árvore.

Somente as orientações concluídas foram incluídas na análise. Logo, como resultado da extração dos orientados da raiz, cada orientado é processado e inserido em uma lista de filhos diretos, lista esta que possui todos os nós que estarão abaixo da raiz na árvore a ser criada.

Em um segundo momento, a lista de filhos diretos começa a ser analisada, e uma segunda lista com os orientados dos nós que estão abaixo da raiz é criada, acrescido das informações do orientador (pai).

Nós que não possuem orientações concluídas vão se tornando nós folhas da árvore, ou seja, nós terminais. Este processo acontece de forma recursiva até que não seja mais possível criar novas listas, ou seja, tenhamos somente nós terminas.

De posse destes dados e dos próprios currículos obtidos através do framework proposto por Dias et al (2013), foi criada uma tabela que possibilita a análise dos dados entre orientadores e orientados. Tabela 1.

Tabela 1. Árvore em formato tabular, exibindo informações adicionais entre orientador e orientado.

Id Nome Pai Instituição Nível Artigos

2550201329788172 Pesq. Raiz - CEFET-MG - -

4687858846001290 Pesq. 2 2550201329788172 CEFET-MG Mestrado 23

9437251245138635 Pesq. 3 2550201329788172 IFMG Mestrado 6

- Pesq. 4 4687858846001290 - Graduação 0

- Pesq. 5 4687858846001290 - Graduação 0

Genealogia Científica: Uma Análise Hierárquica de Instituições e pesquisadores orientadores

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

A tabela pode conter diversas informações do pesquisador orientado, como por exemplo, identificador, nome, afiliação, área de atuação, entre outros. Alem destas, também é possível observar a relação entre orientado e orientador, através nível e do número de artigos escritos após a orientação.

Alem da tabela, foi gerado diversos formatos de dados, possibilitando a visualização das árvores geradas em diversas ferramentas de visualização. Exemplo de uma arvore gerado pode ser observada na figura 2.

Figura 2. Árvore genealógica acadêmica estática

Na figura, é possível observar como estão estruturados hierarquicamente todos os descendentes de um orientador que é o centro da árvore gerada. Cada nível da árvore representa um salto na distância entre os nós. Tendo em vista permitir melhor visualização das árvores geradas, árvores interativas também foram construídas. Figura 4.

Moreira, T. H. J., Dias, T. M. R., Santos, L. R. F., Moita, G. F. M

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional

ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

Figura 3. Árvore genealógica acadêmica dinâmica

A árvore dinâmica se mostrou uma importante ferramenta para análise dos elementos que compõem a rede, pois permite remodelar a árvore. Sendo assim, é possível selecionar um determinado elemento para se tornar o centro da árvore, alterando toda a visualização da árvore. Figura 5.

Figura 4. Árvore genealógica acadêmica dinâmica alterada

Genealogia Científica: Uma Análise Hierárquica de Instituições e pesquisadores orientadores

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

CONCLUSÕES

A construção de árvores genealógicas acadêmicas é uma técnica interessante para análise visual de como ocorreu a propagação do conhecimento de um orientador. A representação fornece de forma hierárquica todo o histórico de orientações de forma estruturada, facilitando a visualização.

Neste trabalho, foram utilizados métodos que permitem gerar árvores genealógicas em grandes bases de pesquisadores com baixo custo computacional. Além disto, árvores dinâmicas que de forma interativa possibilita a visualização das árvores criadas também foram propostas.

As bibliotecas para geração das árvores estáticas e dinâmicas utilizam entradas de dados diferentes. Isto demonstra flexibilidade e aplicabilidade do método, possibilitando gerar e estruturar os dados de acordo com a necessidade, biblioteca ou aplicativo utilizado para análise e visualização da árvore.

Diante disto, de posse de um orientador que se torna a raiz, a árvore é construída e consequentemente é possível além de visualizar a árvore gerada, analisar todos os elementos que compõem a árvore pelas suas características individuais, sendo possível analisar, por exemplo, áreas de interesse e atuação dos outros nós abaixo da raiz.

Moreira, T. H. J., Dias, T. M. R., Santos, L. R. F., Moita, G. F. M

SIMMEC/EMMCOMP 2014 XI Simpósio de Mecânica Computacional e II Encontro Mineiro de Modelagem Computacional

ABMEC, Juiz de Fora, MG, 28-30 de maio de 2014

REFERÊNCIAS

Adams, J. (2010). A trace of greatness. Times Higher Education, 6.

Alves, A. D., Yanasse, H. H., & Soma, N. Y. 2011a. Perfil dos bolsistas pq das áreas de engenharia de produçao e de transportes do cnpq: enfoque na subárea de pesquisa operacional. In XLIII Simpósio Brasileiro de Pesquisa Operacional, Ubatuba, SP, Brasil, 2011 (Vol. 8)

Alves, A. D., Yanasse, H. H., & Soma, N. Y. 2011b SUCUPIRA: Um Sistema de Extração de Informações da Plataforma Lattes para Identificação de Redes Sociais Acadêmicas. In CISTI'2011 (6ª Conferência Ibérica de Sistemas e Tecnologias de Informação), Chaves, Portugal.

Alves, A. D., Yanasse, H. H., & Soma, N. Y. 2011c. LattesMiner: a multilingual DSL for information extraction from lattes platform. Paper presented at the Proceedings of the compilation of the co-located workshops on DSM'11, TMC'11, AGERE!'11, AOOPES'11, NEAT'11; VMIL'11, Portland, Oregon, USA,

Dias, T. M. R., & Moita, G. F. Extração e Modelagem de Redes de Colaboração Científica. In Conferência IADIS Ibero-Americana WWW/Internet, Porto Alegre, Brasil, 2013 (Vol. 1)

Dias, T. M. R., Moita, G. F., Dias, P. M., Moreira, T., & Santos, L. Modelagem e Caracterização de Redes Científicas: Um Estudo Sobre a Plataforma Lattes. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), Maceió, Brasil, 2013 (Vol. 1)

Fernandes, G. O., Sampaio, J. O., & Souza, J. M. XMLattes - A Tool for Importing and Exporting Curricula Data. In WORLDCOMP'11 - The 2011 World Congress in Computer Science, Computer Engineering, and Applied Computing, Las Vegas, Nevada, USA, 2011

Mena-Chalco, J. P., Digiampietri, L. A., & Cesar-Jr, R. M. Caracterizando as redes de coautoria de currículos Lattes. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), Curitiba, Brasil, 2012 (pp. 1-12)

Mena-Chalco, J. P., Junior, C., & Marcondes, R. (2009). ScriptLattes: an open-source knowledge extraction system from the Lattes platform. Journal of the Brazilian Computer Society, 15(4), 31-39.

Mena-Chalco, J. P., & Junior, R. M. C. (2011). Prospecção de dados acadêmicos de currículos Lattes através de scriptLattes. Capítulo do livro Bibliometria e Cientometria: reflexões teóricas e interfaces (in press). São Carlos: Pedro & João, 1-20.

Miyahara, E. K., Mena-Chalco, J. P., & Cesar-Jr, R. M. 2011. Genealogia Acadêmica Lattes. Monografia. Universidade de São Paulo. Instituto de Matemática e Estatística. São Paulo.