34
Pesquisa Científica Utilizando Ciência de Dados Ciclo de Seminários - Instituto do Cérebro Marcus Nunes 29 de Novembro de 2019 Departamento de Estatística - UFRN

Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Pesquisa Científica Utilizando Ciência de Dados

Ciclo de Seminários - Instituto do Cérebro

Marcus Nunes

29 de Novembro de 2019

Departamento de Estatística - UFRN

Page 2: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Quem sou Eu?

2

Page 3: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Quem sou Eu?

• Marcus Nunes, Professor Adjunto no Departamento deEstatística da UFRN

• PhD em Estatística pela Penn State University

• Ciência de dados, aprendizagem de máquina, aplicações daestatística, programação em r, educação estatística

• Diretor do Laboratório de Estatística Aplicada:lea.estatistica.ccet.ufrn.br/

• Site pessoal: marcusnunes.me

3

Page 4: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

O Que é Ciência de Dados?

4

Page 5: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

O Que é Ciência de Dados?

• Buzzword muito utilizada atualmente

• Juntamente com big data e data science, o termo tem ganhadomuita força nos últimos anos

5

Page 6: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

O Que é Ciência de Dados?

0

25

50

75

100

2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020Ano

Inte

ress

e Termo de Busca

data science

ciencia de dados

Interesse no Google Brasil

6

Page 7: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

O Que é Ciência de Dados?

• Alguém tem alguma definição?

7

Page 8: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Multidisciplinaridade

• Multidisciplinaridade

• Competências de um profissional 100% capacitado paratrabalhar com Ciência de Dados:

• Estatística• Programação• Negócios• Conhecer bem a área de atuação (internet, varejo, finanças etc)

8

Page 9: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Multidisciplinaridade

• Que tipo de profissionais temos no momento?

• Bons estatísticos e matemáticos que escrevem códigos semotimização

• Bons cientistas da computação que entendem um pouco deestatística e matemática

• Bons cientistas da computação que entendem um pouco denegócios, depois de muita experiência na área

• Especialistas em alguma área de atuação• Gerentes que sabem fazer estas pessoas trabalharem juntas

9

Page 10: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Quem Trabalha com Ciência de Dados?

• Estatísticos

• Programadores

• Físicos

• Cientistas de Dados

10

Page 11: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Quem Trabalha com Ciência de Dados?

Figure 1: Como eu me sinto 11

Page 12: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

O que é um Cientista de Dados?

• Cientista de Dados (Data Scientist) é o novo nome paraEstatístico

• No fundo, ambos são a mesma coisa, embora uma destasprofissões trabalhe melhor seu marketing pessoal

• Para mim, é alguém que entende mais de programação do queum Estatístico tradicional

• Também entende mais de estatística do que um Cientista daComputação tradicional

• E, principalmente, é alguém que consegue encontrar soluçõespara problemas juntando estas duas áreas do conhecimentocom multidisciplinaridade

12

Page 13: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Aplicações

13

Page 14: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Psicolinguística

• Godoy et al., (2017). O papel do conhecimento de eventos noprocessamento de sentenças isoladas. Letrônica, 10 (2), pp538-554.

• O conhecimento de eventos faz parte de uma coleção de pistaspragmáticas que impactam o processo de compreensão dalinguagem

• Experimento de leitura autocadenciada

14

Page 15: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Psicolinguística

• O jornalista checou a ortografia do seu último relatório.(Argumento previsível)

• O mecânico checou os freios do carro. (Argumento previsível)• O jornalista checou os freios do carro. (Argumento imprevisível)• O mecânico checou a ortografia do seu último relatório.(Argumento imprevisível)

15

Page 16: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Psicolinguística

Yijklmn = µ + Ii + Ej + (IE)ij + Sk + Ll + Pm(l) + εijklmn

• Yijklmn: tempo de resposta (ms)

• µ : média geral

• Ii: argumento interno

• Ej: argumento externo

• (IE)ij: interação entre os argumentos

• Sk ∼ N(0, σ2S): sujeito

• Ll ∼ N(0, σ2L): lista de palavras

• Pm(l) ∼ N(0, σ2P): palavra m dentro da lista l

• εijklmn ∼ N(0, σ2ε): erro aleatório

16

Page 17: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Psicolinguística

• 4 listas, 32 itens experimentais, 24 sujeitos

• Foi ajustado um modelo de regressão linear misto

• Não foram detectados efeitos dos argumentos

17

Page 18: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Captura de Peixes

• Lima et al. (2020). Declining fisheries and increasing prices: Theeconomic cost of tropical rivers impoundment. FisheriesResearch, 221.

• Com a construção de barragens no leito do rio, a reproduçãodos peixes ficou comprometida

• A pesca diminuiu 58% em 25 anos, enquanto o preço aumentou49% durante o mesmo período

18

Page 19: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Captura de Peixes

Figure 2: Rio Madeira e suas represas 19

Page 20: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Captura de Peixes

Missingness MapLa

mba

riJe

juC

haru

toM

andu

beS

urub

imze

bra

Bic

odep

ato

Sau

naS

ardi

nhac

hata

Pira

nhap

reta

Sar

dinh

apap

uda

Aca

riBod

oP

iranh

acaj

uP

inta

dinh

oC

ubiu

Sar

dinh

acom

prid

aP

eixe

cach

orro

Sur

ubim

lenh

aB

acu

Cui

uJa

ndia

Aru

ana

Cor

oata

Bod

oP

iram

utab

aTa

moa

taS

urub

imca

para

riM

atrin

xaM

apar

aTa

mba

qui

Sur

ubim

Pira

nha

Pira

rucu

Bar

bach

ata

Man

diTr

aira

Apa

paP

esca

daA

cara

Sur

ubim

pint

ado

Ara

cuP

iau

Pira

pitin

gaS

ardi

nha

Jau

Tucu

nare

Bab

aoF

ilhot

eS

alad

aP

irara

raB

ranq

uinh

aJa

raqu

iJa

tuar

ana

Pac

uC

urim

ata

Dou

rada

2012

2010

2008

2006

2004

2002

2000

1998

1996

1994

Missing (64%)Observed (36%)

20

Page 21: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Captura de Peixes

0.0

5.0

10.0

15.0

20.0

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano

Pre

ço p

or q

uilo

(U

SD

)

21

Page 22: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Captura de Peixes

0.0

5.0

10.0

15.0

20.0

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano

Pre

ço p

or q

uilo

(U

SD

)

Legenda

Dados

Modelo

22

Page 23: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria

• Cienciometria: ciência que, a partir de aspectos quantitativos equalitativos da publicação científica, busca o entendimento dosmúltiplos fatores que afetam a produção acadêmica econsequentemente determinam a qualidade de cientistas,periódicos e instituições.

• Objetivo: analisar a produção científica da UFRN no período de2014-2017 e encontrar quais as variáveis (drivers) quedeterminam esta produção. Auxiliar na formulação deestratégias de gerenciamento e financiamento.

23

Page 24: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria

• Angelini e Nunes (202?)

• Quais fatores influenciam a produção acadêmica dosprofessores da UFRN?

• Analisamos dados entre 2014 e 2017

24

Page 25: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Produção Total

Média Desvio Padrão

6.92 10.23

# artigos Qtde %

0 327 18.311 227 12.712 187 10.473 168 9.414 126 7.05

5 92 5.156 81 4.547 59 3.308 64 3.589 38 2.13

10+ 417 23.35 25

Page 26: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Produção A1

Média Desvio Padrão

0.7 1.9

# artigos Qtde %

0 1311 73.401 239 13.382 84 4.703 53 2.974 25 1.40

5 28 1.576 13 0.737 7 0.398 5 0.289 4 0.22

10+ 17 0.95 26

Page 27: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Correlações entre os Tipos de Produção

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

A1

A2

B1

B2

B3

B4

B5

C

SQ

Livros

Cap

0.46

0.38

0.24

0.16

0.12

0.04

0.08

0.23

0.02

0.01

0.45

0.33

0.23

0.18

0.07

0.11

0.25

0

0.05

0.45

0.32

0.24

0.14

0.22

0.24

−0.01

0.07

0.37

0.27

0.15

0.22

0.25

0.03

0.14

0.33

0.21

0.2

0.23

0.01

0.1

0.22

0.14

0.24

0.11

0.18

0.16

0.19

0.1

0.17

0.22

0.07

0.15

0.09

0.15 0.32

27

Page 28: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Heatmap

1980

1990

2000

2010

2020

1970 1980 1990 2000 2010Ano de Ingresso na UFRN

Ano

de

Obt

ençã

o do

Dou

tora

do

0

4

16

36

Quantidade

28

Page 29: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Variáveis Utilizadas

• UNG: horas de ensino anuais na graduação• GRA: horas de ensino anuais na pós-graduação• SDOC: orientações de doutorado concluídas• SMAS: orientações de mestrado concluídas• SIC: orientações de iniciação científica concluídas• SMON: número de TCCs orientados• PFU: número de projetos financiados• PNF: horas dedicadas à pesquisa• OUT: número de eventos• BEF: número de artigos publicados antes de obter o doutorado• YDOC: ano de obtenção do doutorado• YUFRN: ano de ingresso na UFRN• GEN: gênero

29

Page 30: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Modelagem

• Dados discretos, provenientes de contagens

• O natural seria escolher distribuições como Poisson ouBinomial Negativa para o ajuste do modelo

• Entretanto, a análiase exploratória nos sugere um excesso dezeros

• Isto nos leva a considerar o ajuste de um modelo hurdle

30

Page 31: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Modelagem

• Sendo assim, testamos quatro modelos diferentes:

1. Regressão Poisson: E(Y) = µ; Var(Y) = µ

2. Regressão Binomial Negativa: E(Y) = µ; Var(Y) = µ + ϕµ2

3. Regressão Poisson Hurdle:E(Y) = 1−p

1−e−µ µ; Var(Y) = 1−p1−e−µ (µ + µ2) −

(1−p

1−e−µ µ)2

4. Regressão Binomial Negativa Hurdle:E(Y) = 1−p

1−P0µ; Var(Y) = 1−p

1−P0

(µ2 + µ + µ2

k

)−

(1−p1−P0

µ)2

em que p é a probabilidade de uma observação igual a zero ocorrer eP0 =

(k

µ+k

)k31

Page 32: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Modelagem

AIC BIC

ajuste_negbin 9580.411 9662.727ajuste_poisson 14508.942 14585.770ajuste_hurdle_poisson 13234.043 13387.699ajuste_hurdle_negbin 9463.204 9622.348

32

Page 33: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Cienciometria - Modelagem

Preditores Coeficientes Média Desvio.Padrão p.valor

(Intercept) 5.0415 NA NA 0.0000UNG 1.0013 13.9999 6.3341 0.9600GRA 1.0763 3.4784 4.5456 0.0207SDOC 1.3162 0.6988 1.7804 0.0000SMAS 1.2484 2.2447 3.1184 0.0000

SIC 1.1551 2.0666 3.6978 0.0000SMON 1.0558 3.3645 5.9741 0.0186PFU 1.1478 3.6534 5.6673 0.0000PNF 1.0776 21.7013 52.0439 0.0110OUT 1.0114 5.8018 8.7833 0.6360

BEF 1.4226 3.2156 5.7848 0.0000YDOC 0.9108 2007.2374 6.7722 0.0083YUFRN 1.1558 2005.8970 9.7173 0.0000GENMasculino 1.0695 NA NA 0.1806

33

Page 34: Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173 0.0000 GENMasculino 1.0695 NA NA 0.1806 33. Obrigado 34. Title: Pesquisa Científica

Obrigado

34