【AI数据建设2】数据存储

AI时代,数据为王。那么AI数据是如何建设的?本文将以人脸和声纹数据为例,从AI数据的存储说起。

2.1搭建数据库

如果没有数据库,数据就只能存在个人电脑或硬盘里,这种方式非常不安全,容易造成数据泄露且不易查询。这里的数据库是指关系型数据库(Oracle、My SQL),后期可能还会发展成数据仓储(AWS Redshift, Greenplum, Hive)。图片等数据还是存储在如nas盘的地方。

数据入库虽由开发完成,但数据入库前需要产品经理提炼好业务数据模型,即规划好入库需要保留哪些字段,有哪些类型(具体如2.2)这一步是数据库搭建的基石,合理的业务数据模型提炼需要产品经理深刻洞悉业务的本质,如果理解有误或者思考不周全,将会直接影响数据库表结构的设计,导致后期返工。

2.2字段类型:数据入库

产品经理需要在理解业务逻辑的基础上,明确数据需要留存的字段,开发同事才能建设数据库表字段。这一步目的是为了日后提取数据时,能有不同的标签供筛选提取。所以如果这一步一定要考虑周全,适当扩展需求字段或者预测未来的需要,否则后续可能没有办法区分某些细分类型的数据,清洗环节就会花费更多的人力时间。以下以人脸和声纹部分字段为例。

1)人脸:

人员ID:一个人可能有多张照片或音频,需要一个区分人员的唯一标识,如身份证,员工号,客户号,手机号等

来源ID:不同渠道的精准度和数量级不同,所以要区分数据是由哪一种收集渠道来的,如业务、采购、人工采集、公开数据集等。

业务ID:业务的场景特性不同,可用于定位问题和场景特性分析,一般是自定义的英文数字串。

数据类型:用于区分不同数据类型。如人脸的证件照、生活照、身份证照片。声纹的固定文本、文本无关和随机文本。

用途:拿去训练的数据不能用于测试,如测试,训练。

人员信息:表示产生该数据的人的特性,如年龄、性别、国籍、人种、省份

数据质量:如人脸遮挡、光照、模糊度程度,声纹内容完整程度;

数据属性:表示该数据的属性,如人脸有无闭眼,张闭嘴,戴帽子,黑眼圈,背景噪音,音量,表情、情绪。

创建时间:要注意区分是数据生产时间,还是入库时间。

比对分数:算法检测的结果

2)声纹部:

数据简写:简单描述采集人身份的更多信息,如年龄、语言、健康状况等

数据来源:从数据来源信息分析环境噪音,便于定位问题

语音ID号:同一文本类型,可能录制多次,比如数字文本录制8次,按编号1-8进行标记

数据时间:仅用于记录,但也是必要信息

数据录制设备:采集多信道数据时,这是重要的标记信息

数据用途:用于声纹识别或活体检测

数据类型:数据分为固定文本、数字文本和自由文本,简写可快速得知数据类型

其他特性:如声纹采样率,8Khz,16KHz;信道,电话、手机、音箱、麦克风。

2.3字段获取方式

检测手段有以下几种,每种适合的标签字段不一样:

接口回传解析:指业务接口日志就存有的标签字段,比如ID和类型(身份证、手机号、客户号)

算法模型识别:指在数据库中布算法模型跑数据,给一个算法分数的字段,便于提取目标数据时有一个初筛。

映射关系:通过业务场景或特点映射的字段标签

开发工具:有些字段包含在文件中,但不能直接获取,人工一个个打开记录不现实,一般开发人员会开发或寻找一个工具,实现批量获取。比如人脸图片数据的大小,可以从操作系统直接批量获取。人脸的视频,声纹的音频数据需要批量判断文件有多少时长,多大的话,不能直接从操作系统获取,需要开发一个小工具获取。虽然不需要产品经理开发这些工具,但产品经理了解这些对数据入库方案可以做出更准确的周期预判、优先级规划。

人工打标签:人工精细化清洗。人工清洗时赋予数据的标签字段,会更新到数据库表中。

3.3存储量

数据库构建早期,数据越多越好,可以说是来者不拒。因为此时团队的算法能力还比较弱,对数据的精细化程度要求还不是很高,库里的数据对算法能力的提升多少都会有帮助,另一方面团队初期在应用场景上的积累和经验有限,对未来规划无法做出清晰的远瞻性决策,贸然舍弃一部分数据,在未来拓展了相应落地场景时,就会痛惜缺失了相应的数据。

所以在早期,数据全量入库存储是没有问题的,但随着业务的拓展,数据量会呈指数增长,存储成本将会给团队预算支出带来巨大压力。这个时候产品经理结合算法当前的能力和存量数据以及增量场景数据的特点制定一套恰到好处的数据瘦身回流策略就显得尤为必要。

要知道当前算法测试训练所需的数据是哪些,不需要或者存量已经很充足的数据有哪些。

比如人脸数据,一个思路是从阈值出发,阈值附近可以考虑优先回流(因为算法在阈值附近的误判率比较高,关于附近的定义是什么范围,这个需要结合数据量比例以及算法的要求共识制定)。

另一个思路是根据业务ID的场景特点分析,比如人脸考勤闸机业务来的数据,每月都会产生大量重复人员的数据(因为一个大楼的人员很固定)是否每个人的每日每个时段都要留存,就是个值得商榷的事情。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容