Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173...

Preview:

Citation preview

Pesquisa Científica Utilizando Ciência de Dados

Ciclo de Seminários - Instituto do Cérebro

Marcus Nunes

29 de Novembro de 2019

Departamento de Estatística - UFRN

Quem sou Eu?

2

Quem sou Eu?

• Marcus Nunes, Professor Adjunto no Departamento deEstatística da UFRN

• PhD em Estatística pela Penn State University

• Ciência de dados, aprendizagem de máquina, aplicações daestatística, programação em r, educação estatística

• Diretor do Laboratório de Estatística Aplicada:lea.estatistica.ccet.ufrn.br/

• Site pessoal: marcusnunes.me

3

O Que é Ciência de Dados?

4

O Que é Ciência de Dados?

• Buzzword muito utilizada atualmente

• Juntamente com big data e data science, o termo tem ganhadomuita força nos últimos anos

5

O Que é Ciência de Dados?

0

25

50

75

100

2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020Ano

Inte

ress

e Termo de Busca

data science

ciencia de dados

Interesse no Google Brasil

6

O Que é Ciência de Dados?

• Alguém tem alguma definição?

7

Multidisciplinaridade

• Multidisciplinaridade

• Competências de um profissional 100% capacitado paratrabalhar com Ciência de Dados:

• Estatística• Programação• Negócios• Conhecer bem a área de atuação (internet, varejo, finanças etc)

8

Multidisciplinaridade

• Que tipo de profissionais temos no momento?

• Bons estatísticos e matemáticos que escrevem códigos semotimização

• Bons cientistas da computação que entendem um pouco deestatística e matemática

• Bons cientistas da computação que entendem um pouco denegócios, depois de muita experiência na área

• Especialistas em alguma área de atuação• Gerentes que sabem fazer estas pessoas trabalharem juntas

9

Quem Trabalha com Ciência de Dados?

• Estatísticos

• Programadores

• Físicos

• Cientistas de Dados

10

Quem Trabalha com Ciência de Dados?

Figure 1: Como eu me sinto 11

O que é um Cientista de Dados?

• Cientista de Dados (Data Scientist) é o novo nome paraEstatístico

• No fundo, ambos são a mesma coisa, embora uma destasprofissões trabalhe melhor seu marketing pessoal

• Para mim, é alguém que entende mais de programação do queum Estatístico tradicional

• Também entende mais de estatística do que um Cientista daComputação tradicional

• E, principalmente, é alguém que consegue encontrar soluçõespara problemas juntando estas duas áreas do conhecimentocom multidisciplinaridade

12

Aplicações

13

Psicolinguística

• Godoy et al., (2017). O papel do conhecimento de eventos noprocessamento de sentenças isoladas. Letrônica, 10 (2), pp538-554.

• O conhecimento de eventos faz parte de uma coleção de pistaspragmáticas que impactam o processo de compreensão dalinguagem

• Experimento de leitura autocadenciada

14

Psicolinguística

• O jornalista checou a ortografia do seu último relatório.(Argumento previsível)

• O mecânico checou os freios do carro. (Argumento previsível)• O jornalista checou os freios do carro. (Argumento imprevisível)• O mecânico checou a ortografia do seu último relatório.(Argumento imprevisível)

15

Psicolinguística

Yijklmn = µ + Ii + Ej + (IE)ij + Sk + Ll + Pm(l) + εijklmn

• Yijklmn: tempo de resposta (ms)

• µ : média geral

• Ii: argumento interno

• Ej: argumento externo

• (IE)ij: interação entre os argumentos

• Sk ∼ N(0, σ2S): sujeito

• Ll ∼ N(0, σ2L): lista de palavras

• Pm(l) ∼ N(0, σ2P): palavra m dentro da lista l

• εijklmn ∼ N(0, σ2ε): erro aleatório

16

Psicolinguística

• 4 listas, 32 itens experimentais, 24 sujeitos

• Foi ajustado um modelo de regressão linear misto

• Não foram detectados efeitos dos argumentos

17

Captura de Peixes

• Lima et al. (2020). Declining fisheries and increasing prices: Theeconomic cost of tropical rivers impoundment. FisheriesResearch, 221.

• Com a construção de barragens no leito do rio, a reproduçãodos peixes ficou comprometida

• A pesca diminuiu 58% em 25 anos, enquanto o preço aumentou49% durante o mesmo período

18

Captura de Peixes

Figure 2: Rio Madeira e suas represas 19

Captura de Peixes

Missingness MapLa

mba

riJe

juC

haru

toM

andu

beS

urub

imze

bra

Bic

odep

ato

Sau

naS

ardi

nhac

hata

Pira

nhap

reta

Sar

dinh

apap

uda

Aca

riBod

oP

iranh

acaj

uP

inta

dinh

oC

ubiu

Sar

dinh

acom

prid

aP

eixe

cach

orro

Sur

ubim

lenh

aB

acu

Cui

uJa

ndia

Aru

ana

Cor

oata

Bod

oP

iram

utab

aTa

moa

taS

urub

imca

para

riM

atrin

xaM

apar

aTa

mba

qui

Sur

ubim

Pira

nha

Pira

rucu

Bar

bach

ata

Man

diTr

aira

Apa

paP

esca

daA

cara

Sur

ubim

pint

ado

Ara

cuP

iau

Pira

pitin

gaS

ardi

nha

Jau

Tucu

nare

Bab

aoF

ilhot

eS

alad

aP

irara

raB

ranq

uinh

aJa

raqu

iJa

tuar

ana

Pac

uC

urim

ata

Dou

rada

2012

2010

2008

2006

2004

2002

2000

1998

1996

1994

Missing (64%)Observed (36%)

20

Captura de Peixes

0.0

5.0

10.0

15.0

20.0

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano

Pre

ço p

or q

uilo

(U

SD

)

21

Captura de Peixes

0.0

5.0

10.0

15.0

20.0

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano

Pre

ço p

or q

uilo

(U

SD

)

Legenda

Dados

Modelo

22

Cienciometria

• Cienciometria: ciência que, a partir de aspectos quantitativos equalitativos da publicação científica, busca o entendimento dosmúltiplos fatores que afetam a produção acadêmica econsequentemente determinam a qualidade de cientistas,periódicos e instituições.

• Objetivo: analisar a produção científica da UFRN no período de2014-2017 e encontrar quais as variáveis (drivers) quedeterminam esta produção. Auxiliar na formulação deestratégias de gerenciamento e financiamento.

23

Cienciometria

• Angelini e Nunes (202?)

• Quais fatores influenciam a produção acadêmica dosprofessores da UFRN?

• Analisamos dados entre 2014 e 2017

24

Cienciometria - Produção Total

Média Desvio Padrão

6.92 10.23

# artigos Qtde %

0 327 18.311 227 12.712 187 10.473 168 9.414 126 7.05

5 92 5.156 81 4.547 59 3.308 64 3.589 38 2.13

10+ 417 23.35 25

Cienciometria - Produção A1

Média Desvio Padrão

0.7 1.9

# artigos Qtde %

0 1311 73.401 239 13.382 84 4.703 53 2.974 25 1.40

5 28 1.576 13 0.737 7 0.398 5 0.289 4 0.22

10+ 17 0.95 26

Cienciometria - Correlações entre os Tipos de Produção

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

A1

A2

B1

B2

B3

B4

B5

C

SQ

Livros

Cap

0.46

0.38

0.24

0.16

0.12

0.04

0.08

0.23

0.02

0.01

0.45

0.33

0.23

0.18

0.07

0.11

0.25

0

0.05

0.45

0.32

0.24

0.14

0.22

0.24

−0.01

0.07

0.37

0.27

0.15

0.22

0.25

0.03

0.14

0.33

0.21

0.2

0.23

0.01

0.1

0.22

0.14

0.24

0.11

0.18

0.16

0.19

0.1

0.17

0.22

0.07

0.15

0.09

0.15 0.32

27

Cienciometria - Heatmap

1980

1990

2000

2010

2020

1970 1980 1990 2000 2010Ano de Ingresso na UFRN

Ano

de

Obt

ençã

o do

Dou

tora

do

0

4

16

36

Quantidade

28

Cienciometria - Variáveis Utilizadas

• UNG: horas de ensino anuais na graduação• GRA: horas de ensino anuais na pós-graduação• SDOC: orientações de doutorado concluídas• SMAS: orientações de mestrado concluídas• SIC: orientações de iniciação científica concluídas• SMON: número de TCCs orientados• PFU: número de projetos financiados• PNF: horas dedicadas à pesquisa• OUT: número de eventos• BEF: número de artigos publicados antes de obter o doutorado• YDOC: ano de obtenção do doutorado• YUFRN: ano de ingresso na UFRN• GEN: gênero

29

Cienciometria - Modelagem

• Dados discretos, provenientes de contagens

• O natural seria escolher distribuições como Poisson ouBinomial Negativa para o ajuste do modelo

• Entretanto, a análiase exploratória nos sugere um excesso dezeros

• Isto nos leva a considerar o ajuste de um modelo hurdle

30

Cienciometria - Modelagem

• Sendo assim, testamos quatro modelos diferentes:

1. Regressão Poisson: E(Y) = µ; Var(Y) = µ

2. Regressão Binomial Negativa: E(Y) = µ; Var(Y) = µ + ϕµ2

3. Regressão Poisson Hurdle:E(Y) = 1−p

1−e−µ µ; Var(Y) = 1−p1−e−µ (µ + µ2) −

(1−p

1−e−µ µ)2

4. Regressão Binomial Negativa Hurdle:E(Y) = 1−p

1−P0µ; Var(Y) = 1−p

1−P0

(µ2 + µ + µ2

k

)−

(1−p1−P0

µ)2

em que p é a probabilidade de uma observação igual a zero ocorrer eP0 =

(k

µ+k

)k31

Cienciometria - Modelagem

AIC BIC

ajuste_negbin 9580.411 9662.727ajuste_poisson 14508.942 14585.770ajuste_hurdle_poisson 13234.043 13387.699ajuste_hurdle_negbin 9463.204 9622.348

32

Cienciometria - Modelagem

Preditores Coeficientes Média Desvio.Padrão p.valor

(Intercept) 5.0415 NA NA 0.0000UNG 1.0013 13.9999 6.3341 0.9600GRA 1.0763 3.4784 4.5456 0.0207SDOC 1.3162 0.6988 1.7804 0.0000SMAS 1.2484 2.2447 3.1184 0.0000

SIC 1.1551 2.0666 3.6978 0.0000SMON 1.0558 3.3645 5.9741 0.0186PFU 1.1478 3.6534 5.6673 0.0000PNF 1.0776 21.7013 52.0439 0.0110OUT 1.0114 5.8018 8.7833 0.6360

BEF 1.4226 3.2156 5.7848 0.0000YDOC 0.9108 2007.2374 6.7722 0.0083YUFRN 1.1558 2005.8970 9.7173 0.0000GENMasculino 1.0695 NA NA 0.1806

33

Obrigado

34

Recommended