Data_DBLP-Journals_Python

本文用到的包

import re
import sys
from collections import defaultdict
import numpy as np
import pylab as plt
import matplotlib.cm as cm
import statsmodels.api as sm
from os import listdir
import json

本文使用了AMiner公布的DBLP计算机科学文献数据,基本分析思路与代码与Data_APS-Journals_Python一文一致。唯一的区别是数据格式有所不同,在数据中没有论文长度的信息,同时引文数据与论文基本信息也有许多没有匹配上,因此数据集较小,所有子领域加起来一共有近十三万论文和四十万引用记录。

读取数据:

path='/Users/csid/Documents/bigdata/DBLP_Citation_2014_May/domains/'
Q={}
Cdata=[]
C=defaultdict(lambda:[0,0]) #paper doi : (cite n papers, been cited by n papers)
for p in listdir(path):
    if p=='.DS_Store':
        continue
    flushPrint(p)
    paper={}
    c=[]
    with open(path+p,'rb') as f:
        for line in f:
            try:
                if len(line.split('#')) > 1:
                    c.append(line)
                else:
                    nAuthor = len(c[1].split(','))
                    year = digitalize(c[2])
                    doi = digitalize(c[4])
                    for i in c[5:]:
                        nc = digitalize(i)
                        if nc:
                            Cdata.append([doi,nc])
                            C[doi][0]+=1
                            C[nc][1]+=1
                    paper[doi]=[year,nAuthor]
                    c=[]
            except:
                pass
    Q[p]=paper

P=defaultdict(lambda:{})
for j in Q:
    for i in Q[j]:
        if i in C:
            P[j][i]=Q[j][i]+C[i]

接下来的各个分析,与对APS期刊的分析基本一致,因此不再展示代码。

图1. 计算机杂志历年发表文章数。标注中写明了创刊年份。
图1. 计算机杂志历年发表文章数。标注中写明了创刊年份。
图2. 计算机杂志历年文章平均作者数。
图2. 计算机杂志历年文章平均作者数。
图3. 计算机杂志历年文章平均引用其他文章数。
图3. 计算机杂志历年文章平均引用其他文章数。
图4. 计算机杂志历年文章平均被引用次数。
图4. 计算机杂志历年文章平均被引用次数。

综上各图,结论是APS杂志文章的平均作者数和引用数都在不断增加,说明科研越来越依赖团队作战,而且做出一手科研贡献对专业知识的储备要求也越来越高。

发现存在关系

![Eq. 1][1]
[1]: http://latex.codecogs.com/svg.latex?W\sim{N^{\gamma}}

其中W是引用总数,N是文章总数。

图5. 计算机杂志总文章数和总引用数的关系。右下角标注出了不同期刊的gamma系数。
图5. 计算机杂志总文章数和总引用数的关系。右下角标注出了不同期刊的gamma系数。

考虑一个网络,节点是论文,连边是论文之间彼此引用的关系,这样的网络可以称为科学引文网络。上图中我们发现,链边增长得比节点数量要快,而且总链边数和总节点数之间总是构成如Eq.1所示幂律关系。

同时,发现还存在关系

![Eq. 2][2]
[2]: http://latex.codecogs.com/svg.latex?M\sim{e^{-\delta{t}}}

其中M是被引用数量,t是时间。

图6. 计算机杂志不同年代文章引用数跨越时间的分布。右上角标注出了不同时期的delta系数。
图6. 计算机杂志不同年代文章引用数跨越时间的分布。右上角标注出了不同时期的delta系数。

如上图所示,我们发现虽然文章引用的频次随时间跨度加大总是以指数方式迅速衰减,但这个衰减速度在变慢。物理学家不断引用更早的研究发现,这说明随着人类社会发展,科学家对已有知识检验和重构的宽度在不断增加。有趣的是,虽然同样衰减速度在变慢,计算机论文的衰减速度还是要比物理论文快得多。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容