AI发电厂——数据标注公司(国内数据标注公司服务调研)

众所周知,深度学习需要大量的标记数据和高效的运算来做支撑。
计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已。
应用时代而生的就是一大批数据众包公司和平台。正好借着一个数据众包任务,对于国内的数据标注公司服务有了更深一步的了解。

原文发布于个人博客(好望角),那里有更好的阅读体验。


AI发电厂————数据标注公司

伴随着AI兴起的最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。
所以摒除那些复杂的中间环节,深度学习最关键的就是需要大量的数据训练,这也是为什么在互联网大数据的时代,AI可以崛起。而在数据训练之前,又必须先对大量的数据进行标注,作为机器学习的先导经验。

因此,催生了大量数据标注公司的诞生。

什么是数据标注

要理解数据标注,得先理解AI其实是部分替代人的认知功能。
回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。

根据应用场景的不同,数据标注有许多类型。大体上分为图像、语音、自然语言三大类。
其中由于图像研究领域的水文热潮,图像标注的任务也尤为众多。。。无人驾驶、人脸识别、物体检测……
语音和语言相对来说,数据标注难度更大一点。价格也相对高昂一些。

在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。

众包标注的困难

众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:

  1. 标注者的水平
    由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
  2. 评价困难
    标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。我们本次想要的数据众包也是这个类型的。
  3. 标注稀疏性
    如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。

数据众包公司调研

由于我们需要众包的数据是中文数据,所以只关心国内的一些数据众包公司。国外的Amazon Mechanical Turk、CrowdFlower、Mighty AI等公司不在考察范围之内。

据悉,在国内的数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。
这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。
目前的数据标注工作主要是集中在河北、河南、山东、山西等劳动力密集的地区,这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。

下面是我对国内的数据众包公司做的一些调研(按照我搜索得知该公司的顺序排序)。
不知道是否是我们的标注任务太难的缘故,绝大多数公司没有任何反馈。

1.百度数据众包百度云众包
百度不愧是靠PC端的网页搜索起家的,其前端技术还是不错,网站做的还是比较精致的。但是我提出了数据标注任务之后,贵司的这个相应效率可就有点搞笑了。完全没有反应……

2.泛函科技
第二天下午有反馈, 0.35元/条, 后来涨价到1.5元/条……而且拿走我的数据,试标结果都没有反馈。
但是客户经理态度还比较好,最后给出这样一个方案“您确定一个期望的价格,我们也可以把他发到我们的平台上,我们抽取一定佣金后,按您意愿的价格发布任务。看是否有用户愿意标注,这样的工期我们不敢保证。”,我是不敢采取的,23333。

3.京东众智
数据标注的需求申请是真难用!京东公司就没有一个会前端的人嘛?
但是,京东的效率很高,反应很快(第二天就有回复),对接服务还比较周到细致,测评试标注有标注结果反馈,且效果尚可。最后谈妥的价格是0.55元/条,含6个点的税,增值税普通发票。关键是,京东平台只接受5W元以上的订单。这一点为什么不在官网说明?浪费我那么多的联系时间。

4.数据堂
联系之后没有反馈

5.龙猫数据
联系之后没有反馈

6.阿里众包
联系之后没有反馈

7.星辰数据
网页做的很好看,但是联系之后没有反馈

8.爱数智慧
第二天下午有反应,但进展比较慢。问我要走了样例数据试标注却没有结果反馈。难道不需要顾客审查标注质量么?
最后报出的定价是0.45元/条,但是谁知道他们标注的质量呢?

9.倍赛公司
联系之后没有反馈

10.tagger
联系之后没有反馈

总的来说,我眼中国内最靠谱的数据标注公司是京东众智。不论是客户经理的对接工作,还是数据的试标注反馈,完成的都比较高效和到位。但也有一个致命的缺陷,它们只接受5W元以上的标注任务订单,,,这就基本把高校的科研组统统拒之门外了。另外,泛函科技和爱数智慧的服务以及价格尚可,只是没有京东众志应答迅速,没有试标注的结果反馈。至于其他一些公司,统统没有反馈,令人失望。


PS:上文中,BA已经出镜,不给T家一个机会貌似不太公平。那就给他们一个亮相机会吧。

腾讯数据标注实习生招聘

参考文献

众包数据标注中的隐类别分析
谈谈人工智能数据标注那些事儿
数据标注员,最后一批被AI取代的人

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容