- 从科研档案预测下一次职业变动;
- 引用和读者是否确定了重要的出版物?;
- MemeSequencer:用于嵌入图像宏的稀疏匹配;
- 二分网络及其投影的度分布;
- 目的地选择博弈:人类流动的空间交互理论;
- “走出壁橱”:文学小说的科学作者和知识转移;
- Facebook在欧洲使用敏感数据进行广告宣传;
- 网络结构抑制重尾社会网络中的信息级联;
- 理解Goodreads的图书流行度;
- 他们为什么不再关注我? Twitter上掉粉的早期检测;
- 空间优先附着模型的聚类性质;
- 金融危机中银行间市场的多重核心-边缘分析的结构性变化;
- 帮派地盘的对流-扩散模型;
从科研档案预测下一次职业变动
原文标题: Prediction of next career moves from scientific profiles
地址: http://arxiv.org/abs/1802.04830
作者: Charlotte James, Luca Pappalardo, Alina Sirbu, Filippo Simini
摘要: 不断变化的机构是科学家的重要职业决策,在教育,科学生产力和科学知识的产生中发挥着重要作用。然而,我们对影响搬迁决定的因素的理解非常有限。在本文中,我们调查科学家的科学概况如何决定他们的决定(即改变机构)。为此,我们通过三个主要方面描述科学家的概况:科学家最近的科学事业,科学环境的质量和科学合作网络的结构。然后,我们设计和实施一个两阶段预测模型:首先,我们使用数据挖掘来预测哪一位研究人员将根据他们的科学概况在明年进行移动;第二,我们通过使用传统的人类流动引力模型的新颖社会引力模型来预测他们将选择哪个机构。对大量科学出版物数据集的实验表明,我们的方法在两个阶段都表现良好,相对于最先进的方法,预测误差减少了85%。
引用和读者是否确定了重要的出版物?
原文标题: Do Citations and Readership Identify Seminal Publications?
地址: http://arxiv.org/abs/1802.04853
作者: Drahomira Herrmannova, Robert M. Patton, Petr Knoth, Christopher G. Stahl
摘要: 在本文中,我们显示引文计数在区分优秀研究方面比随机基线(10%的边际)更好,而Mendeley阅读器计数并不比基线更好。具体而言,我们研究这些指标的潜力,以区分导致研究领域发生变化的出版物与未发表的出版物。该实验已经在称为TrueImpactDataset的文献计量学研究的新数据集上进行。 TrueImpactDataset是两种类型的研究出版物的集合 - 研究论文,这些论文被认为是他们所在领域的开创性着作,以及提供研究领域文献综述的论文。我们提供数据集的概览统计数据,并建议使用它来验证研究评估指标。使用数据集,我们进行了一系列实验,以研究引文和读者计数如何区分这些出版物类型,然后引入领域变化的直觉表示研究贡献。我们发现引文数量有助于区分那些强烈影响后期发展的研究与主要以一定准确度(63%,即随机基线的10%)讨论当前艺术水平的作品。在所有设置中,Mendeley阅读器计数表现比随机基线更差。
MemeSequencer:用于嵌入图像宏的稀疏匹配
原文标题: MemeSequencer: Sparse Matching for Embedding Image Macros
地址: http://arxiv.org/abs/1802.04936
作者: Abhimanyu Dubey, Esteban Moro, Manuel Cebrian, Iyad Rahwan
摘要: 对互联网上社交媒体内容的创造,变异和传播的分析是计算社会科学中的一个基本问题,影响从营销到政治动员等领域。理解在线图像演变的第一步是分析快速修改和传播的模因图像或“模因”。然而,进行此类调查的一个陷阱是当前无法为这种图像产生强大的语义空间,能够理解图像宏中的差异。在这项研究中,我们通过提出一种基于稀疏表示和深度学习的算法来解析这些图像中的各种类型的内容并产生丰富的语义嵌入,为互联网上图像演化的系统研究提供了第一步。我们展示了我们的方法在与模因和图像宏有关的各种任务(如图像聚类,图像检索,主题预测和病毒传播预测)方面的优势,超越了各自的现有方法。除了它在量化任务上的实用性之外,我们的方法还有可能获得对模因图像演变和传播的第一次大规模的理解。
二分网络及其投影的度分布
原文标题: Degree distributions of bipartite networks and their projections
地址: http://arxiv.org/abs/1802.04953
作者: Demival Vasques Filho, Dion R.J. O'Neale
摘要: 双模式(双模式)网络在分析社会和经济系统时非常重要,因为它们明确显示了不同类型实体之间的概念联系。但是,这种网络的应用通常与原始双边网络的投影(单模式)版本一起工作。投影网络的拓扑结构以及发生在其上的动力学高度依赖于来自原始二分结构的两种不同节点类型的程度分布。迄今为止,双方网络的度分布与其单模投影之间的相互作用仅在少数情况下或者对于满足一组限制性假设的网络而言是很好理解的。在这里,我们展示了一个更广泛的分析,以填补以前的研究留下的空白。我们使用生成函数的形式来证明原始二分网络中两种节点类型的度分布都会影响投影版本中的度分布。为了支持我们的分析,我们使用配置模型来模拟几种类型的合成二分网络,其中节点度由特定的概率分布分配,从峰值分布到重尾分布。我们的研究结果表明,当将双向网络投影到一组特定的节点上时,所得到的单模网络的度分布遵循投影到的节点的分布,但只要相反的集合的度分布节点没有较重的尾部。此外,我们表明,与文献中通常描述的相反,二分度分布并不是驱动投影网络拓扑形成的唯一特征。
目的地选择博弈:人类流动的空间交互理论
原文标题: Destination Choice Game: A Spatial Interaction Theory on Human Mobility
地址: http://arxiv.org/abs/1802.04966
作者: Yan Xiao-Yong, Zhou Tao
摘要: 在移民预测,全球疾病缓解,城市规划和许多其他方面具有显著的意义,一个令人震惊的挑战是预测任何两个地点之间的人员流动通量。针对上述挑战提出了多种方法,包括介入机会模型,引力模型,辐射模型,人口加权机会模型等。尽管他们理论上的优雅,但所有模型忽略了个人决定去哪里的直觉和重要因素,也就是可能的拥堵和目的地的拥挤。在这里我们提出了一个基于移动性决策的微观机制,称为目的地选择博弈(DCG),它考虑到个体间空间相互作用导致的拥挤效应。与最先进的模型相比,目前的模型可以更准确地预测从城市间行程到城际间行程以及进一步到内部迁移的大范围迁移流量。众所周知的引力模型恰好是一个退化的DCG的均衡解决方案,忽略了目的地的拥挤效应。
“走出壁橱”:文学小说的科学作者和知识转移
原文标题: 'Getting out of the closet': Scientific authorship of literary fiction and knowledge transfer
地址: http://arxiv.org/abs/1802.05012
作者: Joaquín M. Azagra-Caro, Anabel Fernández-Mesa, Nicolás Robinson-García
摘要: 一些科学家在业余时间撰写文学小说书籍。如果这些书包含科学知识,文学小说就成为知识转移的机制。在这种情况下,我们可以将文学小说理解为非正式的知识转移。我们通过文学小说将知识转移模型化为科学家类型(学术或非学术)和他/她的科学领域的函数。学术科学家是那些在学术界和公共研究机构工作的学者,而非学术科学家是那些在其他领域具有科学背景的科学家。我们还区分直接知识转移(本书包括科学家的研究主题),间接知识转移(科学作者与文化代理人谈论他们的研究)和逆向知识转移(文化代理给科学家未来研究的想法)。通过混合研究方法和来自西班牙的样本,我们发现科学着作占所有文学小说作者的相当比例。学术科学家不像非学术科学家那样直接传授知识,但前者比后者更频繁地参与间接和反向转移知识。来自历史和哲学的科学家在直接的知识转移中脱颖而出。我们提出关于学术逻辑和科学领域在通过文学小说进行知识转移方面的作用的命题。我们就文学作品的科学着作权作为有价值的知识转移机制提出了一些初步结论。
Facebook在欧洲使用敏感数据进行广告宣传
原文标题: Facebook Use of Sensitive Data for Advertising in Europe
地址: http://arxiv.org/abs/1802.05030
作者: José González Cabañas, Ángel Cuevas, Rubén Cuevas
摘要: 即将出台的欧洲通用数据保护条例(GDPR)禁止处理和利用某些类别的个人数据(健康,政治取向,性取向,宗教信仰,族裔出身等),因为隐私风险可能来源于恶意使用这种类型的信息。这些类别被称为敏感个人数据。 Facebook最近在西班牙被罚款120万欧元,用于收集,存储和处理用于广告目的的敏感个人数据。本文将欧盟(EU)Facebook用户的部分量化,这些用户被标记为与敏感个人数据相关的利益。我们的研究结果显示,Facebook将73%的欧盟用户标注为敏感兴趣。这相当于整个欧盟人口的40%。我们还估计,恶意第三方可能会以低至每用户0.015欧元的成本揭露已分配敏感兴趣的Facebook用户的身份。最后,我们建议并实施一个网页浏览器扩展程序,以向Facebook用户通知Facebook分配给他们的敏感兴趣。
网络结构抑制重尾社会网络中的信息级联
原文标题: Network structure inhibits information cascades in heavy-tailed social networks
地址: http://arxiv.org/abs/1802.05039
作者: Caitlin Gray, Lewis Mitchell, Matthew Roughan
摘要: 信息和想法遍布社会网络,在线社交媒体平台是加速信息流动的强大媒介。表征和理解网络结构对这种信息流的作用在许多领域中都很重要,但受限于具有一系列结构特性的网络数据的可用性。因此,使用具有可调参数的数学网络模型来充分发掘信息级联现象至关重要。我们通过对一系列网络类型的数值模拟来展示底层图结构同时影响信息级联的可能性和探索这些级联的性质。在模拟随机网络中使用信息级联的典型阈值模型,我们显示网络局部性增加了连接节点的脆弱性,并因此增加了全局级联的可能性。相反,我们发现在重尾网络中,全局级联概率由于高度连接的阻塞节点的存在而降低。
理解Goodreads的图书流行度
原文标题: Understanding Book Popularity on Goodreads
地址: http://arxiv.org/abs/1802.05057
作者: Suman Kalyan Maity, Ayush Kumar, Ankan Mullick, Vishnu Choudhary, Animesh Mukherjee
摘要: Goodreads自2009年以来推出了读者选择奖,用户可以提名/投票自己选择的书籍,并在特定年份发布。在这项工作中,我们质疑是否可以根据Goodreads上各种实体的特征来预测一本书将获得的票数(也就是该书的受欢迎程度)。我们成功地预测了具有高预测准确度(相关系数〜0.61)和低RMSE(〜1.25)的书籍的流行度。发现用户参与度和作者的声望是书籍受欢迎程度的关键因素。
他们为什么不再关注我? Twitter上掉粉的早期检测
原文标题: Why Did They #Unfollow Me? Early Detection of Follower Loss on Twitter
地址: http://arxiv.org/abs/1802.05091
作者: Suman Kalyan Maity, Ramanth Gajula, Animesh Mukherjee
摘要: 在最近的社交媒体和微博社区中,拥有更多的追随者已经成为一种常态。这场战斗从Twitter的早期形成。尽管追随者竞争激烈,但许多Twitter用户不断失去追随者。这项工作解决了识别Twitter用户数量下降的原因的问题。作为第一步,我们通过分析由一直失去追随者的Twitter用户发布的帖子内容来提取各种功能。然后,我们利用这些功能来及早检测追随者的损失。我们提出了各种模型,并以高精度和召回产生73%的总体准确度。我们的模型比基线模型优胜19.67%(准确率为w.r.t),33.8%(精确度为w.r.t)和14.3%(回收率为w.r.t.)。
空间优先附着模型的聚类性质
原文标题: Clustering Properties of Spatial Preferential Attachment Model
地址: http://arxiv.org/abs/1802.05127
作者: Lenar Iskhakov, Bogumil Kaminski, Maksim Mironov, Liudmila Ostroumova Prokhorenkova, Pawel Pralat
摘要: 在本文中,我们研究由Aiello等人引入的Spatial Preferential Attachment(SPA)模型的聚类特性。在2009年。这种模式自然结合几何和优先连接使用影响力的概念。先前在几篇研究论文中显示,SPA模型生成的图在许多方面与现实世界的网络相似。例如,顶点度分布显示遵循幂定律。在本文中,我们研究C(d)的行为,这是d度顶点的平均局部聚类系数。这个特性以前没有在SPA模型中分析过。然而,从经验上可以看出,在现实世界中,C(d)通常随着d ^ { - a}下降,对于一些α> 0,并且经常观察到a = 1。我们证明在SPA模型C(d)下降为1 / d。此外,我们还可以证明,如果d足够大,不仅d的顶点v的平均值而且单个局部聚类系数表现为1 / d。所获得的结果用模拟图进行了大量实验。
金融危机中银行间市场的多重核心-边缘分析的结构性变化
原文标题: Structural changes in the interbank market across the financial crisis from multiple core-periphery analysis
地址: http://arxiv.org/abs/1802.05139
作者: Sadamori Kojaku, Giulio Cimini, Guido Caldarelli, Naoki Masuda
摘要: 银行间市场通常以核心 - 外围网络结构为特征,高度相互关联的银行核心将市场联系在一起,银行的外围主要与核心而非内部相连。这种模式最近面临短时间尺度的挑战,银行间市场似乎更好地表现为具有比核心内部更多的核心 - 外围连接的双边结构。通过在eMID银行间市场上使用新颖的核心 - 边检测方法,我们通过展示网络实际上具有多个核心 - 外围对的特征来丰富这一图像。此外,通过缩短数据聚集的时间尺度,发生了从核心 - 边到双边结构的转变。我们进一步展示了全球金融危机如何改变市场,就核心 - 外围对的组成,多样性和内部组织而言。通过揭示这样一个细致的组织和银行间市场的转型,我们的方法可以找到重要的应用,以理解如何在金融网络上传播痛苦。
帮派地盘的对流-扩散模型
原文标题: A Convection-Diffusion Model for Gang Territoriality
地址: http://arxiv.org/abs/1802.05149
作者: Abdulaziz Alsenafi, Alethea B. T. Barbaro
摘要: 我们提出了一个基于主体的模型来模拟由二维离散格子上的涂鸦标记激发的帮派领土发展。为了简单起见,我们假设存在两个对立的帮派,他们争夺领土。在这种模式中,代理人代表帮派成员,并根据有偏见的随机行走进行移动,在移动时增加涂鸦的概率,并优先避免其他帮派的涂鸦。所有的代理交互都是间接的,通过涂鸦字段进行交互。我们用数字表示,随着参数的变化,在混合良好的状态和良好分离的状态之间发生相变。数值结果表明系统质量,衰减率和涂鸦率对临界参数有影响。从离散模型中,我们导出了一个用于区域发展的对流扩散方程的连续体系。使用连续方程,我们执行线性稳定性分析以确定平衡解的稳定性,并且我们发现我们可以确定参数空间中相变的精确位置,作为系统质量和涂鸦创建和衰减率的函数。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。