你投的论文是怎么凉(中)的

原文:My Criteria for Reviewing Papers
作者:Eric Jang
译者:尹肖贻

NeurIPS 2020 论文评议结果公布了。评议统共9454份,接受论文1900篇(约占20%)。无论论文接受与否,对每位作者与评委的辛勤劳动,我都表示衷心的感佩!

在机器学习研究圈里流传着一个公开的秘密:NeurIPS还是其他什么会议,接受与否犹如赌运气。现今的“学术出版”业(Academic Publishing),几乎与实证研究脱节。评委们就像的剧院里众口难调的观众,各有主张,根据不同的标准褒贬论文的不同侧面。下面列一些评委可能采取的标准:

正确性:这是科学论文的最低要求。本文提出的主张是否在科学意义上正确?作者是否有意无意地在训练过程中使用了测试集的信息?如果论文中提出了一种算法,作者是否有力地表明,该算法的卓越性出于他们陈述的理由?

新知识: 论文必须为该领域贡献知识。“新”可以体现为:新算法、新实验数据、现有概念的新解释等等。综述性的论文也应包含新知识,比如将多个工作的脉络统一起来,从而形成整体观点。

恰当引用:阐明该论文与先前工作的联系,以及当前工作的创新之处。一些审稿人会拒绝那些未能充分引述先前工作、或与先前工作的区分度不足的论文。

SOTA结果: 要求论文(1)提出一种新算法,以及(2)在公认的测试基准(base-line)上达到最好结果(State-of-the-art)。

仅SOTA是不够的:没有评委会因为论文实现SOTA而进行惩罚,但是有些评委希望论文不仅要超越基准线,还要满足列表中的更多项标准。一些评委甚至刻意抨击ML领域的“SOTA”文化。如果一篇论文仅仅符合SOTA结果而没有其他特色,会被认为是“创新不足”或“浮皮蹭痒”(incremental)。

足够简单:许多研究人员声称更喜欢“简单的想法”。但是,“大道至简”和“浅陋琐碎”之间的分野并不总是显而易见。

足够复杂:一些审稿人认为,倘若论文没有亮眼的算法或花哨的数学证明,论文就是“琐碎无聊”或“不够严格”。

立意清晰、理解深刻:一些评委关心算法背后的机制,期待作者能够深入理解机器学习,而不仅是实验的成功。这项与“正确性”密切相关。

选题品味: Julian Togelius(NeurIPS20的评审委员会主席) 指出 ,他判过的很多论文,都不足以令他兴奋。也许只有他自己知道“令人兴奋”的内涵,不过我揣测他的意思是,在选择研究问题和解决方案时,要具有“品味”。

上图所说:“我理解被拒论文的作者此刻心情不佳。作为评审主席,我敢肯定一些论文虽然足够出色,却最终被拒稿。这些论文的问题,就是不够“带劲”,让我提不起兴趣。

足够困难:一些审稿人拒绝使用太简单的数据集(如MNIST)做测试基准的论文。“足够困难”是一个不断变化的目标,它隐含着一个期望,即随着该领域发明更好的方法,测试基准必须变得越来越难,以推动人们研究尚未解决的问题。同样,基于简单测试基准的SOTA方法并不总是基于更困难的测试基准(更接近于实际应用)的SOTA。侥幸的很,我 引用数最高的论文 是在MNIST仍可以作为测试基准的时候撰写的。

出人预料:即使论文给出不错的结果,审稿人也可能声称论文稀松平常,实验结果“显而易见”。举个例子,有的论文将物体识别的通用算法应用在新的数据集上。考虑到计算机视觉领域的流行观点认为有监督的物体识别问题已经被大部分解决,那么上述论文可能会被认为“太简单和直接”。(物体识别被解决这个观点并不准确,但是在测试基准反映不出来。)
我特别喜欢违反直觉的论文,我也正自努力效仿。 我最喜欢的一些论文,不仅没有达到SOTA,甚至没有提出任何新算法,但结论足够违反直觉:

  1. Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet
  2. Understanding Deep Learning Requires Rethinking Generalization.
  3. A Metric Learning Reality Check
  4. Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
  5. Adversarial Spheres

实用:与“足够困难的问题”密切相关。一些评论者认为,仅是虚拟的游戏就可以作为强化学习算法的测试平台,而另一些评论者(通常来自典型的机器人社区)则持有不同观点,他们认为Mujoco Ant (一种虚拟的四足蚂蚁)和真正的四足机器人所面临的挑战是完全不同的,因为前者的实验结论并不能直接影射后者的表现。

符合道德:一些评委将机器学习的发展视为建立更好社会的手段,拒斥与他们的AI伦理不符的论文。今年NeurIPS要求论文作者考虑“更广泛的社会影响”,这表明机器学习社区正在认真对待这项要求。例如,如果论文试图仅从面部特征推断犯罪,或执行自动武器瞄准,那么无论采用哪种方法,论文都将被拒绝。

不同的审稿人将上述内容分配不同的优先级,其中许多标准都是高度主观的(例如问题偏好、道德规范、简洁性等)。对于上述每个标准,都有可能存在反例,甚至是引用数很高或很有影响力的论文,也违反其中的一些标准,可能因为它们对其他标准符合得很好。

我的标准

在此分享我个人对论文的审查标准。接受或拒绝的意见, 主要在于正确性,以及是否包含新信息。 即使某篇论文研究方向相对小众,在十年内几无可能成为热门,只要论述了其他材料没有提过的新知识,我也将投票接受它。

上述为抽象原则,这里展示几则具体示例:

  • 如果你在论文简介中提到某种强化学习的类人探索,并发明了一种算法以完成功能,那么我希望在实验部分看到的经验证明,该算法确与人的行为相似;
  • 如果你的算法无法实现SOTA,我对此并不介意。但我想看到你仔细分析算法何以无法实现SOTA,以及算法的动机;
  • 当论文提出新算法时,我更愿意看到该算法的效果比以前的工作更好。但是,如果该论文对“为什么它没有比以前的工作得分更高”的事实进行了正确的分析,我仍然会投票接受;
  • 如果你声称新算法由于X原因而工作得更好,那么我希望看到实验表明这一结果不是由于替代假设X1、X2而引起的。

我必须指出,正确性难以验证。在过去的五年中,许多度量学习主题的论文在顶会中录用,然而只有 Musgrave等 指出,这些论文之间的实验基准不一致。作为审稿人,我必得提醒自己放低身段,奉命唯谨。我已经审阅了十多个会议和研讨会的论文,坦白地说,凭靠阅读我仅能了解25%的内容。作者们花了数十乃至数百个小时,设计和研发论文和实验方法,而我只花几个小时来确定论文是否“科学正确”。我的道行,还不足以掌握严格评估正确性的能力。

不管对于论文作者还是审稿人,一个常挂嘴边的好问题是:“什么实验可以让人确信论文的假设是正确的,而不是由于某些替代假设?作者是否检查了所有的替代假设?”【译者:要做充分的Ablation Study。】

我认为,我们应该接受所有“足够好的”论文,与此同时允许评委保留额外的主观标准,诸如“品味”和“简洁性”,以用于论文评奖、讲演、或会议展示。我不知道是否应该让每个人都认同我的个人标准,不过作为审稿人,我明白无误地申明接受/拒绝论文的标准,对于论文作者和其他审稿人不无裨益。

非传统研究人员的机会

如果你有兴趣获得指导,学习如何更好地阅读、评论并撰写论文,我想补充一下可循例联系到我的时段,当前订在每星期六上午,通过Google Meet线上举行。在过去的三个月中,我保持对六位同学进行指导,效果不错。

任何不具有传统研究背景(当前不处于攻读机器学习博士学位)的人都可以联系我预约时间。你可以将之视为访问助教,以获取研究工作的帮助。以下项目我可以提供,这些帮助项目完全无偿

  • 如果阅读论文时遇到困难,我可以尝试与你一起阅读,并提出我的想法,就像我正在审阅它一样;
  • 如果你是新手,不知道从哪里开始,我可以提供一些入门练习,如阅读/总结一些经典论文,复现论文结果等;
  • 我可以尝试帮你建立良好的研究品味。如果你的研究方向有些激进,我可以帮你降低研究失败的风险;
  • 有关软件工程研究的建议。我写代码已逾十载,我可以从经验中给你快速完成实验的意见;
  • 咨询你自己撰写的论文的意见,假装我是观看你的海报(poster)的观众;
  • 帮你为撰写的论文拟定切入主题的吸人眼球的“故事”。

不需要从业经验,需要的只是做出更好研究的愿望。我在周六上午的时间对访客的接受率是100%,所以请勿羞于启齿!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容