Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Prof. Dr. José Eduardo Santarem Segundo [email protected]
http://santaremsegundo.com.br
Optativa
Gestão de
Dados de Pesquisa
sa
nta
rem
@u
sp
.br
2
• Graduado em Computação
• Especialista em Sistemas para Internet
• Mestre e Doutor em Ciência da Informação
• Experiência de 15 anos como Analista de
Sistemas.
Apresentação
sa
nta
rem
@u
sp
.br
3
• Atuação
• Docente do Departamento de Educação,
Informação e Comunicação da USP de Ribeirão
Preto.
• Docente do Programa de Pós-Graduação em
Ciência da Informação da UNESP/Marília, na
linha de Informação e Tecnologia.
Apresentação
sa
nta
rem
@u
sp
.br
4
• Pesquisa atual:
• Conceitos, metodologias e tecnologias para impulsionar a disponibilização de dados de publicação científica em formato aberto e semântico, seguindo as melhores práticas do Linked Data.
Apresentação
sa
nta
rem
@u
sp
.br
5
• Atuação nas seguintes áreas:
• Web Semântica (Ontologias, RDF, Linked Data...),
• Dados Abertos,
• Análise de Dados em Grande Volume (Big Data Analytics)
• Coordenador:
Apresentação
sa
nta
rem
@u
sp
.br
6
•Porque fazemos pesquisa?
•Porque publicamos os resultados?
•Como se inicia um processo de pesquisa?
Pesquisa!
sa
nta
rem
@u
sp
.br
7
• A Internet tem mudado a maneira de fazer e de comunicar resultados de pesquisa.
• A publicação de resultados de pesquisa em acesso aberto tem evoluído a cada ano.
• Proposta da Horizon 2020 indica uma tendência de buscar meios e processos que possam favorecer que os resultados de pesquisa tornem-se universais e acessíveis livremente a todos.
• Recente boicote a editora Elsevier pelo consórcio que inclui 60 dos maiores institutos de pesquisa da Alemanha.
Informações relevantes...
sa
nta
rem
@u
sp
.br
8
• Pesquisa Publicada na NATURE
• NATURE|Vol 466|22 July 2010
• Gerald Koocher and Patricia Keith-Spiegel
• https://www.nature.com/articles/466438a
• Um total de 2.599 cientistas responderam a uma pesquisa confidencial sobre como lidar com irregularidades no laboratório;
• 2.193 compartilharam um ou mais incidentes, dos quais 1.386 relataram ter tentado algum tipo de intervenção.
Mais informações relevantes..
sa
nta
rem
@u
sp
.br
9
Pesquisa Nature
sa
nta
rem
@u
sp
.br
10
• A FAPESP reconhece a importância da gestão adequada dos dados de pesquisa como parte essencial das boas práticas de pesquisa. Para tanto, considera necessário que os dados resultantes de projetos financiados pela Fundação sejam gerenciados e compartilhados de forma a garantir o maior benefício possível para o avanço científico e tecnológico.
• Por estes motivos, um Plano de Gestão de Dados vem se tornando componente obrigatório na fase de submissão de um projeto. É exigido pela maioria das agências de fomento públicas e privadas da América do Norte, Austrália e de alguns países europeus (Grã-Bretanha, Holanda, Alemanha, países escandinavos).
Mais informações relevantes
sa
nta
rem
@u
sp
.br
11
• Segundo a Organização para a Cooperação e Desenvolvimento Econômico (OCDE) (2007):
• Dados de pesquisa são “registros factuais usados como fonte primária para a pesquisa científica e que são comumente aceitos pelos pesquisadores como necessários para validar os resultados do trabalho científico”
O que é dado de pesquisa?!
sa
nta
rem
@u
sp
.br
12
• Segundo Sayão e Sales (2015):
• A noção de dados pode variar consideravelmente entre pesquisadores e, ainda mais, entre áreas do conhecimento.
• A constatação de que os dados são gerados para diferentes propósitos, por diferentes comunidades acadêmicas e científicas e por meio de diferentes processos intensifica ainda mais essa percepção de diversidade.
• Tipos de dados podem incluir, por exemplo, números, imagens, textos, vídeos, áudio, software, algoritmos, equações, animações, modelos, simulações.
Dado de Pesquisa
sa
nta
rem
@u
sp
.br
13
• A National Science Board (2005) caracteriza os dados de pesquisa, segundo sua origem, em
• Dados experimentais: resultados de estudos em ambientes controlados de laboratórios;
• Dados computacionais: que são produtos da execução de modelos computacionais que simulam uma dada realidade;
• Dados observacionais: que são resultados de observações de fenômenos que se desenrolam em lugares e tempos específicos.
• Cada categoria exige tratamento diferente!
Categorização de dados de pesquisa
sa
nta
rem
@u
sp
.br
14
• Demanda para gestão de dados
• Políticas mandatórias
• Pressupostos da Ciência Aberta (próximo slide)
• Como previsto por Jim Gray em 2007, o quarto paradigma da ciência se faz cada dia mais presente nas ações do mundo atual.
Qual o cenário que se vislumbra em relação a “Desenvolvimento de Pesquisa”
sa
nta
rem
@u
sp
.br
15
• Uhlir e Schoroeder apresentam benefícios (além dos socioeconômicos e científicos) para uma ciência aberta.
• Incentiva a diversidade de análise e de opiniões;
• Promove novos tipos de pesquisa;
• Possibilita a aplicação de ferramentas automatizadas online de descoberta de conhecimento;
• Permite a verificação de resultados prévios;
• Torna possível o teste de hipóteses e de métodos novos ou alternativos de análise;
• Dá suporte a estudos sobre métodos de coleta de dados e de mensuração;
• Facilita a formação de novos pesquisadores;
• Possibilita a exploração, por outros pesquisadores, de tópicos não previstos pelos pesquisadores iniciais;
• Permite a criação de novos conjuntos de dados, de informações e de conhecimentos quando os dados de múltiplas fontes são combinados;
• Ajuda a transferir informação factual para países em desenvolvimento, promovendo a capacitação de pesquisadores nesses países;
• Promove a pesquisa interdisciplinar, intersetorial, interinstitucional e internacional;
Ciência Aberta
sa
nta
rem
@u
sp
.br
16
• Ainda não é possível imaginar (apesar de haver algumas sinalizações) qual será no futuro o uso dos dados que capturamos e armazenamos hoje em dia.
• Mas para que possam ser utilizados é preciso iniciar um processo procedimental para que estes possam ser utilizados da melhor maneira possível.
Uso de dados no futuro
sa
nta
rem
@u
sp
.br
17
• Infraestrutura
• Confiabilidade
• Estabilidade
• Acessibilidade
• Facilidade de armazenamento
• Facilidade de compartilhamento
• Reconhecimento de autoria
• Uso
• Reutilização (Acesso e licenças)
• Confiança (autenticidade e proveniência)
Alguns problemas com os dados de pesquisa!
sa
nta
rem
@u
sp
.br
18
Princípios de FAIR
https://www.nature.com/articles/sdata201618
sa
nta
rem
@u
sp
.br
19
Princípios de Fair
sa
nta
rem
@u
sp
.br
20
W3C – Incluindo
Semântica!
• Este documento descreve um consenso entre as partes interessadas participantes no domínio de Saúde e das Ciências da Vida sobre a descrição dos conjuntos de dados utilizando o Resource Description Framework (RDF).
• Esta especificação atende aos principais requisitos funcionais, reutiliza os vocabulários existentes na medida em que é possível e aborda elementos de descrição, versão, proveniência, descoberta, troca, consulta e recuperação de dados.
sa
nta
rem
@u
sp
.br
21 • http://lod-cloud.net/
Linked Open Data
sa
nta
rem
@u
sp
.br
22
•Um Plano de Gestão de Dados é um texto que deve responder a duas perguntas básicas:
• Quais dados serão gerados pelo projeto
• Como serão preservados e disponibilizados, considerando questões éticas, legais, de confidencialidade e outras.
Plano de Gestão Dados
sa
nta
rem
@u
sp
.br
23
• Como começar??
• Sua instituição tem um modelo, uma equipe?
• A agência de fomento determina algum tipo de regra?
• Eu posso fazer meu próprio plano de Gestão de dados?
• Há roteiros, regras, receitinha de bolo??
Plano de Gestão de Dados
sa
nta
rem
@u
sp
.br
24
• Guias ou sugestões para Plano de Gestão de Dados:
• https://www.nsf.gov/bfa/dias/policy/dmp.jsp
• https://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm
• http://www.dcc.ac.uk/resources/data-management-plans
• Seguiremos com esse:
• http://www.cnen.gov.br/component/content/article/75-cin/material-didatico-cnen/160-guia-de-gestao-de-dados-de-pesquisa
Plano de Gestão de Dados – Como fazer?
sa
nta
rem
@u
sp
.br
25
• Que tipo de dados vai produzir? (observacionais, experimentais, simulações...)
• Que quantidade de dados que vai gerar?
• Como serão gerados? (método, quem, quando, onde)
• Como serão processados? (softwares, analises..)
• Que formato de arquivos serão usados?
Informações sobre os dados. Você sabe isso?
sa
nta
rem
@u
sp
.br
26
• Como os arquivos serão nomeados? (padronizar)
• Quais são as medidas de garantia e controle de qualidade dos dados?
• Há dados disponíveis que servem para sua pesquisa?
• Usará dados já existentes?
• Manutenção dos dados a curto prazo. (backup)
• Quem será o responsável pela gestão a curto prazo?
Informações sobre dados
sa
nta
rem
@u
sp
.br
27
• Quais são os metadados necessários?
• Como os metadados serão criados, capturados? (instrumentos, equipamentos)
• Que esquema ou padrão de metadados será utilizado?
Metadados (descrição)
sa
nta
rem
@u
sp
.br
28
• O acesso e compartilhamento de dados de pesquisa contribui de forma significativa para que a ciência avance e maximize os investimentos aplicados em programas de pesquisa.
• Estudos recentes concluem que o nível de produtividade da atividade de pesquisa aumenta e que o número de publicações baseadas em dados de pesquisa cresce dramaticamente quando os dados de pesquisa são compartilhados por meio de repositórios e arquivos de dados.
• Pesquisadores que compartilham seus dados publicamente recebem mais citações
Acesso, compartilhamento e reuso
sa
nta
rem
@u
sp
.br
29
• Duas questões críticas (ética e privacidade):
• Conjunto de dados onde pessoas, agregados familiares ou empresas são identificados - Precisam de anonimização.
• Quando os dados de pesquisa são derivados e/ou elaborados a partir de uma base de dados comercial pré-existente
Acesso, compartilhamento e reuso
sa
nta
rem
@u
sp
.br
30
• Obrigações de compartilhamento. (políticas mandatórias agencia, instituição...)
• Como os dados serão compartilhados? (para quem, quando, em qual repositório, haverá embargo?)
• Uso futuro e potencial dos dados? (delimitar ajuda a determinar a melhor maneira de compartilhar)
• Como serão citados? (persistência em repositórios, uso de DOI..)
Acesso, compartilhamento e reuso
sa
nta
rem
@u
sp
.br
31
• Preservação Digital (longo prazo);
• Que dados serão preservados
• Onde os dados serão arquivados
• Necessidade de reformatação periódica dos dados
• Responsável pelo contato com o centro de dados
• Custos da gestão de dados;
• Que custos devem ser previstos?
• Como deve ser cobertos?
Outras informações importantes
sa
nta
rem
@u
sp
.br
32
• FAPESP (e outras agências ao redor do mundo) sugere duas ferramentas em seu site:
• https://dmponline.dcc.ac.uk/
• https://dmptool.org/
Ferramentas
sa
nta
rem
@u
sp
.br
33
DMPTool
sa
nta
rem
@u
sp
.br
34
DMPTool
sa
nta
rem
@u
sp
.br
35
DMPTool
sa
nta
rem
@u
sp
.br
36
• Os repositórios de dados de pesquisa são banco de dados que recebem, gerenciam e disseminam dados e conjuntos de dados de pesquisa.
• Eles constituem o lugar mais apropriado para que seus dados sejam preservados e possam ser recuperados, acessados e citados por outros pesquisadores, ou seja, tenham visibilidade em escala mundial.
Repositórios
sa
nta
rem
@u
sp
.br
37
• Há uma tendência de criação de repositórios de dados de pesquisa nas universidades, agências de fomentos, etc!
• Uma ferramenta muito utilizada para constituir um repositório de dados de pesquisa é o Dataverse
• http://dataverse.org/
• Há um repositório importante em forma de catálogo que é o re3data.org, ele armazena informações sobre uma grande número de repositórios de dados ao redor do mundo.
• http://re3data.org
Repositórios
sa
nta
rem
@u
sp
.br
38
re3data.org
sa
nta
rem
@u
sp
.br
39
• Há muito ainda a discutir sobre Gestão de Dados de Pesquisa.
• A ideia de hoje era colocar uma pulga atrás da orelha dos pesquisadores sobre a necessidade latente de registrar informações sobre dados!
Finalizando...
sa
nta
rem
@u
sp
.br
40
• Não é tão simples fazer..
• Há vários benefícios
• Eficiência na pesquisa (evita duplicação);
• Maximiza transparência;
• Permite melhor avaliação das descobertas científicas;
• Da os devidos créditos ao criados dos dados;
• Permite validar métodos de forma mais precisa;
• Não será opcional, será mandatório...
Concluindo...
sa
nta
rem
@u
sp
.br
41
• Agradecimento ao material produzido pelo Centro Nacional de Energia Nuclear (CNEN), em especial ao Guia de Gestão de Dados de Pesquisa dos pesquisadores:
• Luana Sales e Luís Fernando Sayão
• http://www.cnen.gov.br/component/content/article/75-cin/material-didatico-cnen/160-guia-de-gestao-de-dados-de-pesquisa
• Mark D. Wilkinson, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3:sdata201618+, March 2016
• Koocher, Gerald & Keith-Spiegel, Patricia. (2010). Peers nip misconduct in the bud. Nature. 466. 438-40. 10.1038/466438a.
• SAYÃO, Luis Fernando; SALES, Luana Farias. Algumas considerações sobre os repositórios digitais de dados de pesquisa. Informação & Informação, [S.l.], v. 21, n. 2, p. 90-115, dez. 2016. ISSN 1981-8920. Disponível em: http://www.uel.br/revistas/uel/index.php/informacao/article/view/27939
• Uhlir P, Schröder P. Open Data for Global Science. Data Science Journal Jun 2007; 6 (Open Data Issue). Disponível em: <http://www.spatial.maine.edu/icfs/Uhlir-SchroederPaper.pdf>
Referências...
sa
nta
rem
@u
sp
.br
42
• https://www.w3.org/TR/hcls-dataset/
• https://www.youtube.com/watch?time_continue=45&v=jFekfemq7qU
• http://www.fapesp.br/gestaodedados/#ferramentas
• https://library.stanford.edu/research/data-management-services/data-management-plans
• https://dmptool.org/
• https://www.dtls.nl/fair-data/fair-principles-explained/
• https://dans.knaw.nl/en/search
• https://easy.dans.knaw.nl/ui/home
• http://lod-cloud.net/
Referências Links
Prof. Dr. José Eduardo Santarem Segundo [email protected]
http://santaremsegundo.com.br
Optativa
Gestão de
Dados de Pesquisa