Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173...
Transcript of Pesquisa Científica Utilizando Ciência de Dados - Ciclo de ... · YUFRN 1.1558 2005.8970 9.7173...
Pesquisa Científica Utilizando Ciência de Dados
Ciclo de Seminários - Instituto do Cérebro
Marcus Nunes
29 de Novembro de 2019
Departamento de Estatística - UFRN
Quem sou Eu?
2
Quem sou Eu?
• Marcus Nunes, Professor Adjunto no Departamento deEstatística da UFRN
• PhD em Estatística pela Penn State University
• Ciência de dados, aprendizagem de máquina, aplicações daestatística, programação em r, educação estatística
• Diretor do Laboratório de Estatística Aplicada:lea.estatistica.ccet.ufrn.br/
• Site pessoal: marcusnunes.me
3
O Que é Ciência de Dados?
4
O Que é Ciência de Dados?
• Buzzword muito utilizada atualmente
• Juntamente com big data e data science, o termo tem ganhadomuita força nos últimos anos
5
O Que é Ciência de Dados?
0
25
50
75
100
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020Ano
Inte
ress
e Termo de Busca
data science
ciencia de dados
Interesse no Google Brasil
6
O Que é Ciência de Dados?
• Alguém tem alguma definição?
7
Multidisciplinaridade
• Multidisciplinaridade
• Competências de um profissional 100% capacitado paratrabalhar com Ciência de Dados:
• Estatística• Programação• Negócios• Conhecer bem a área de atuação (internet, varejo, finanças etc)
8
Multidisciplinaridade
• Que tipo de profissionais temos no momento?
• Bons estatísticos e matemáticos que escrevem códigos semotimização
• Bons cientistas da computação que entendem um pouco deestatística e matemática
• Bons cientistas da computação que entendem um pouco denegócios, depois de muita experiência na área
• Especialistas em alguma área de atuação• Gerentes que sabem fazer estas pessoas trabalharem juntas
9
Quem Trabalha com Ciência de Dados?
• Estatísticos
• Programadores
• Físicos
• Cientistas de Dados
10
Quem Trabalha com Ciência de Dados?
Figure 1: Como eu me sinto 11
O que é um Cientista de Dados?
• Cientista de Dados (Data Scientist) é o novo nome paraEstatístico
• No fundo, ambos são a mesma coisa, embora uma destasprofissões trabalhe melhor seu marketing pessoal
• Para mim, é alguém que entende mais de programação do queum Estatístico tradicional
• Também entende mais de estatística do que um Cientista daComputação tradicional
• E, principalmente, é alguém que consegue encontrar soluçõespara problemas juntando estas duas áreas do conhecimentocom multidisciplinaridade
12
Aplicações
13
Psicolinguística
• Godoy et al., (2017). O papel do conhecimento de eventos noprocessamento de sentenças isoladas. Letrônica, 10 (2), pp538-554.
• O conhecimento de eventos faz parte de uma coleção de pistaspragmáticas que impactam o processo de compreensão dalinguagem
• Experimento de leitura autocadenciada
14
Psicolinguística
• O jornalista checou a ortografia do seu último relatório.(Argumento previsível)
• O mecânico checou os freios do carro. (Argumento previsível)• O jornalista checou os freios do carro. (Argumento imprevisível)• O mecânico checou a ortografia do seu último relatório.(Argumento imprevisível)
15
Psicolinguística
Yijklmn = µ + Ii + Ej + (IE)ij + Sk + Ll + Pm(l) + εijklmn
• Yijklmn: tempo de resposta (ms)
• µ : média geral
• Ii: argumento interno
• Ej: argumento externo
• (IE)ij: interação entre os argumentos
• Sk ∼ N(0, σ2S): sujeito
• Ll ∼ N(0, σ2L): lista de palavras
• Pm(l) ∼ N(0, σ2P): palavra m dentro da lista l
• εijklmn ∼ N(0, σ2ε): erro aleatório
16
Psicolinguística
• 4 listas, 32 itens experimentais, 24 sujeitos
• Foi ajustado um modelo de regressão linear misto
• Não foram detectados efeitos dos argumentos
17
Captura de Peixes
• Lima et al. (2020). Declining fisheries and increasing prices: Theeconomic cost of tropical rivers impoundment. FisheriesResearch, 221.
• Com a construção de barragens no leito do rio, a reproduçãodos peixes ficou comprometida
• A pesca diminuiu 58% em 25 anos, enquanto o preço aumentou49% durante o mesmo período
18
Captura de Peixes
Figure 2: Rio Madeira e suas represas 19
Captura de Peixes
Missingness MapLa
mba
riJe
juC
haru
toM
andu
beS
urub
imze
bra
Bic
odep
ato
Sau
naS
ardi
nhac
hata
Pira
nhap
reta
Sar
dinh
apap
uda
Aca
riBod
oP
iranh
acaj
uP
inta
dinh
oC
ubiu
Sar
dinh
acom
prid
aP
eixe
cach
orro
Sur
ubim
lenh
aB
acu
Cui
uJa
ndia
Aru
ana
Cor
oata
Bod
oP
iram
utab
aTa
moa
taS
urub
imca
para
riM
atrin
xaM
apar
aTa
mba
qui
Sur
ubim
Pira
nha
Pira
rucu
Bar
bach
ata
Man
diTr
aira
Apa
paP
esca
daA
cara
Sur
ubim
pint
ado
Ara
cuP
iau
Pira
pitin
gaS
ardi
nha
Jau
Tucu
nare
Bab
aoF
ilhot
eS
alad
aP
irara
raB
ranq
uinh
aJa
raqu
iJa
tuar
ana
Pac
uC
urim
ata
Dou
rada
2012
2010
2008
2006
2004
2002
2000
1998
1996
1994
Missing (64%)Observed (36%)
20
Captura de Peixes
0.0
5.0
10.0
15.0
20.0
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano
Pre
ço p
or q
uilo
(U
SD
)
21
Captura de Peixes
0.0
5.0
10.0
15.0
20.0
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012Ano
Pre
ço p
or q
uilo
(U
SD
)
Legenda
Dados
Modelo
22
Cienciometria
• Cienciometria: ciência que, a partir de aspectos quantitativos equalitativos da publicação científica, busca o entendimento dosmúltiplos fatores que afetam a produção acadêmica econsequentemente determinam a qualidade de cientistas,periódicos e instituições.
• Objetivo: analisar a produção científica da UFRN no período de2014-2017 e encontrar quais as variáveis (drivers) quedeterminam esta produção. Auxiliar na formulação deestratégias de gerenciamento e financiamento.
23
Cienciometria
• Angelini e Nunes (202?)
• Quais fatores influenciam a produção acadêmica dosprofessores da UFRN?
• Analisamos dados entre 2014 e 2017
24
Cienciometria - Produção Total
Média Desvio Padrão
6.92 10.23
# artigos Qtde %
0 327 18.311 227 12.712 187 10.473 168 9.414 126 7.05
5 92 5.156 81 4.547 59 3.308 64 3.589 38 2.13
10+ 417 23.35 25
Cienciometria - Produção A1
Média Desvio Padrão
0.7 1.9
# artigos Qtde %
0 1311 73.401 239 13.382 84 4.703 53 2.974 25 1.40
5 28 1.576 13 0.737 7 0.398 5 0.289 4 0.22
10+ 17 0.95 26
Cienciometria - Correlações entre os Tipos de Produção
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
A1
A2
B1
B2
B3
B4
B5
C
SQ
Livros
Cap
0.46
0.38
0.24
0.16
0.12
0.04
0.08
0.23
0.02
0.01
0.45
0.33
0.23
0.18
0.07
0.11
0.25
0
0.05
0.45
0.32
0.24
0.14
0.22
0.24
−0.01
0.07
0.37
0.27
0.15
0.22
0.25
0.03
0.14
0.33
0.21
0.2
0.23
0.01
0.1
0.22
0.14
0.24
0.11
0.18
0.16
0.19
0.1
0.17
0.22
0.07
0.15
0.09
0.15 0.32
27
Cienciometria - Heatmap
1980
1990
2000
2010
2020
1970 1980 1990 2000 2010Ano de Ingresso na UFRN
Ano
de
Obt
ençã
o do
Dou
tora
do
0
4
16
36
Quantidade
28
Cienciometria - Variáveis Utilizadas
• UNG: horas de ensino anuais na graduação• GRA: horas de ensino anuais na pós-graduação• SDOC: orientações de doutorado concluídas• SMAS: orientações de mestrado concluídas• SIC: orientações de iniciação científica concluídas• SMON: número de TCCs orientados• PFU: número de projetos financiados• PNF: horas dedicadas à pesquisa• OUT: número de eventos• BEF: número de artigos publicados antes de obter o doutorado• YDOC: ano de obtenção do doutorado• YUFRN: ano de ingresso na UFRN• GEN: gênero
29
Cienciometria - Modelagem
• Dados discretos, provenientes de contagens
• O natural seria escolher distribuições como Poisson ouBinomial Negativa para o ajuste do modelo
• Entretanto, a análiase exploratória nos sugere um excesso dezeros
• Isto nos leva a considerar o ajuste de um modelo hurdle
30
Cienciometria - Modelagem
• Sendo assim, testamos quatro modelos diferentes:
1. Regressão Poisson: E(Y) = µ; Var(Y) = µ
2. Regressão Binomial Negativa: E(Y) = µ; Var(Y) = µ + ϕµ2
3. Regressão Poisson Hurdle:E(Y) = 1−p
1−e−µ µ; Var(Y) = 1−p1−e−µ (µ + µ2) −
(1−p
1−e−µ µ)2
4. Regressão Binomial Negativa Hurdle:E(Y) = 1−p
1−P0µ; Var(Y) = 1−p
1−P0
(µ2 + µ + µ2
k
)−
(1−p1−P0
µ)2
em que p é a probabilidade de uma observação igual a zero ocorrer eP0 =
(k
µ+k
)k31
Cienciometria - Modelagem
AIC BIC
ajuste_negbin 9580.411 9662.727ajuste_poisson 14508.942 14585.770ajuste_hurdle_poisson 13234.043 13387.699ajuste_hurdle_negbin 9463.204 9622.348
32
Cienciometria - Modelagem
Preditores Coeficientes Média Desvio.Padrão p.valor
(Intercept) 5.0415 NA NA 0.0000UNG 1.0013 13.9999 6.3341 0.9600GRA 1.0763 3.4784 4.5456 0.0207SDOC 1.3162 0.6988 1.7804 0.0000SMAS 1.2484 2.2447 3.1184 0.0000
SIC 1.1551 2.0666 3.6978 0.0000SMON 1.0558 3.3645 5.9741 0.0186PFU 1.1478 3.6534 5.6673 0.0000PNF 1.0776 21.7013 52.0439 0.0110OUT 1.0114 5.8018 8.7833 0.6360
BEF 1.4226 3.2156 5.7848 0.0000YDOC 0.9108 2007.2374 6.7722 0.0083YUFRN 1.1558 2005.8970 9.7173 0.0000GENMasculino 1.0695 NA NA 0.1806
33
Obrigado
34