"众包中的统计推断与激励机制" 主题报告速记与评述(三)

笔者按 :机器学习正在走向基于“语义”的可解释模型的新时代。但在很多场合,例如“语义”驱动的监督学习器在能够达到更强泛化能力前,也还需要数据驱动型算法,而后者的“养料”是标注的大数据,周登勇博士的这个报告介绍了大数据标注的关键技术。
其它评述链接在此。

概要

报告分两个主要部分,并主要围绕第二部分展开讨论:

  1. 为什么需要众包?
  2. 提升众包质量的策略:提出了基于众包的标记质量和众包动机两个问题,并分别给出并介绍了统计推断机制和激励机制设计两个解决方案。

1. 为什么需要众包(Crowd-Sourcing)?

其实这个问题不如反过来问,比如为什么不用半监督学习呢?为什么不用杉山将的弱监督学习呢?为什么不用Dr. Fei-Sha 多任务学习(multi-task learning)、领域适应(domain adaptation)和零样本学习(zero-shot learning)解决小数据问题呢?

周博士的回答是:基于众包的标注可以做到既省时间又省钱,而且引用了ML领域的经典Remark:“更多的数据可以打败聪明的算法”,并举了一个10倍数据量+SVM性能超过1倍数据量+深度学习的例子。

个人注解:周博士的举例说明数据可以打败算法是正确的,但是需要认真考察上述说法所考虑的语境(context)。用一句话说:基于大规模标注数据集的监督学习不会被淘汰,但需要新的学习模式予以搭配,才能从根本上突破现有人工智能的范式和水平。

具体展开来说
 1. 标注数据集是人类智能与监督型机器智能之间的接口:数据驱动的算法尤其是监督学习的深度学习算法,需要大规模的标注数据,在能够处理好过拟合的前提下,数据集当然是数量越大、标注质量越高越好。
 2. 标注数据集不是机器智能持续突破的解药:在Dr.Fei博士的报告中我们已经了解到,带标签的大数据不是万能的,在实际情况中经常会遇到,缺少语义的标签没法解决小数据学习问题。
  3. 突破监督学习才是智能突破的方向:类比教育学领域的学习理论,监督学习类比为示教学习,而人类智能突破更重要的是自主学习和终生学习,而后两者均不依赖于完整的数据标注(示教)。

请忽略我的评述,让我们回到大规模数据集支撑的数据驱动监督算法的“黄金时代”。下面进入报告主要部分:如何提升基于众包标注数据集的质量。

2. 提升基于众包标注数据集质量的策略

2.1 问题:

标注者水平不足(Lack of Expertise)
+ 标注者动机不足(Lack of Incentive)
--> 含噪的标注数据(Noised Labeled Data)
--> 可能导致低质量(Low Quality)

因此,需要提升标注水平和动机。前者的解决方案是采用合适的统计推断方法,后者的解决方案是设计合适的激励机制。

2.2 众包数据的统计推断

如果每个数据只由一个非专业人士标注,那么可以提升标注水平的方式就很有限了。报告在基于低成本标注的前提下,允许多个非专业人士对同一个数据进行标注,从而产生冗余性

针对同一个数据的多个标注,可以考虑投票机制:可以认为每个标注的质量是平等的,但是很显然,这只是个被“淘汰”的benchmark,除非没有任何先验知识,没必要采用这种方式。

于是周博士介绍了他们的工作[NIPS 2012],算法更具体的介绍参考CCAI公众号介绍,为了避免重复,本文只做简要回顾:
  1. 基于极小极大熵原理(minimax conditional entropy method)建模优化问题,里边的极大是“用尽量无偏见的平坦的分布去拟合观测数据”,外边的极小是“最小化标注者所引入的不确定性”。

MiniMaxEntropy-1

  2. 迭代优化:基于拉格朗日对偶法,一种最常用的凸优化问题解法,其中的拉格朗日算子分别代表了标注者能力(worker ability)和标注难度(item difficulty)。

个人注解
 1. 对算法的具体注解:这种拉格朗日分解法不仅能够解决上述优化问题,还可以很方便地实现分布式的迭代优化算法,基于通信媒介和局部信息交换实现分布式标注。因此,报告中的方法可以在分布式标注(人)、多学习器系统(机)和人-机混合标注系统中推广使用,我的小组在做类似的工作。
 2. 对宏观设计的注解:从信息论与编码的角度理解,每次标注可以理解为对真实信息的一次编码(encoding)。尽管每次观测或编码都是有噪的,但只要有先验知识,就可以通过合适方法从每次标注中获取一定的有用信息量,设计比“平均投票”更好的信息融合机制,从而获得比单次解码(decoding)更好的性能。
  3. 最小最大化熵[NIPS 2012]不是的唯一选择。面向不同场景,还可以设计对应的算法解决新问题。当然,最小最大化熵作为普遍适用的方法也可以解决很多别的问题。比如,我们也在做多时间切片的longitudinal数据集中常见的attrition问题。

2.3 众包的激励机制设计

首先明确,众包的激励机制不是纯粹的机器学习问题了,而是商业问题,或者说博弈问题。众包的标注需求方可以设计奖惩规则(Rules),从而影响标注提供方的趋利行为(behaviour),而这个博弈问题存在一个对抗:
  1. 需求方希望尽量“少付出资金投入,多得到优质标注”
  2. 提供方希望尽量“少付出标注劳力,多得到资金回报”

为了解决上述问题,报告提出了两个朴素准则:
  1. "真实"(truthful)准则:引导标注提供方,只在有足够的自信前提下才提供标注。
  2. "没有免费午餐"(no-free-lunch)准则:如果标注提供方所作的标注都是错的,就不给任何回报。

并且证明了"Double-or-Nothing"规则是唯一满足上述两个朴素准则的奖惩规则 ,具体参见[NIPS 2015]。

double-or-nothing

个人注解
既然是唯一满足两个基本朴素原则的奖惩规则,那么就皆大欢喜了?个人认为并不是,回顾报告所考虑场景所作的假设:而标注需求者是唯一的,标注提供者是足够的,并且标注提供者之间没有沟通。那么,如果考虑两个上述假设不成立的场景:
 1. 标注提供者是相对稀有的(比如专业性较高的标注任务),而且标注需求者不是唯一的,因此存在竞争关系。
 2. 标注提供者之间可以沟通,形成某种松散的或紧密的组织。

问题变得很open了。因此,还有许多值得一做的有趣工作。

主要参考文献

[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容