2000+万智能终端、8000+万亿条数据集,长虹如何做快速交互式分析?

长虹公司概况

长虹创始于 1958 年,公司前身国营长虹机器厂是我国“一五”期间的 156 项重点工程之一,是当时国内唯一的机载火控雷达生产基地。

从军工立业、彩电兴业,到信息电子的多元拓展,长虹已成为集军工、消费电子、核心器件研发与制造为一体的综合型跨国企业集团,并正向具有全球竞争力的信息家电内容与服务提供商挺进。

历经三个阶段、50 余年的发展,长虹的销售额在近两年,连续突破 1000 亿,成为四川第一大企业。

长虹智能化发展历程

长虹的大数据研究始于 2009 年开始启用的 ERP 企业管理系统。

当时,刚刚开始布局数据化的长虹业务数据量不大,用户并发数也比较少。随着企业发展,长虹开展了多元化业务,围绕智能终端,通过更多的渠道和更多的手段,大幅提升数据采样的量级和多样化,进而掀起长虹在大数据浪潮下的变革和创新。

2014年,我们紧跟时代步伐,选择走 Hadoop 这条路,自建公司的大数据存储和计算平台,并依托大数据平台进行整个公司的数据业务开发。

有了大数据处理平台,智能化转型核心总结而言就是企业上云、业务上云以及设备要上云,实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。

上云之后,业务的行为会以数据的形式沉淀到各个数据库,然后汇聚到企业数据仓库,通过对数据的加工,形成相应的数据服务能力,也就是今天所说的数据中台,最终服务于长虹的新兴业务,提升企业的竞争力。

长虹大数据技术的演进

为了响应不断变化的业务需求,长虹大数据的技术发展栈主要如这里展示的 Hadoop 这条路的发展历程,主流的开源软件我们都使用。

2016 年,我们在总结长虹的数据特性以及业务需求后开始分析,在我们 2000 多万智能终端、8000 多万亿条数据集的场景下如何做到快速交互式的查询分析?经典的 Hive 已经没法满足快速查询的需求,因此我们开始调研 Apache Kylin 及其商业版 Kyligence Enterprise,并将其作为一个重要的组件工具纳入平台。

围绕着我们整个数据的特点,我们在当时确定整体的进化方向,使用 Kylin 加 Druid 的联合方式做整体的业务分析。

依托扎实的技术平台,我们总结形成了长虹的大数据业务架构,底层是一个 TinyVoice 平台及大数据基础平台,做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系,而且我们的数据标准体系过审了国家 DCMM 的认证,是四川省首家拿到三级认证的企业。基于标准化之后的数据,搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统,最终服务于公司的经营业务。

应用案例

光说数据或者光说大数据都是不行的。数据如果脱离了业务,其实没什么价值,下面介绍一下我们应用大数据技术做的真正有业务价值的案例。

端子分析

原来电视机上有很多不同接口,当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月,对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。

根据统计我们发现,长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大,传统 CVBS 和 ATV 接口需求量仍然很大,VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源,我们发现大部分来自于 CBD 等办公场地,故判断这部分用户应该是企业拿来做投影的,且量特别大,当时就我们建议裁剪。裁剪之后,电视机不仅节省了硬件成本,还节约出了硬件空间,多的硬件空间可以用于其他部件的摆放,从而提升了产品竞争力。

个性化推荐

电视的个性化推荐和视频网站的个性化推荐不太一样,我们是没有做内容的,所以我们做推荐,依托自建的媒体库推荐对应的视频软件。

另一个和视频网站不同的是,电视机实际是以家庭的方式存在的,在用户家里有不同的人在用,老人、孩子、家庭主妇等不同的角色可能都在用这个电视机,但是每个人的喜好不同,这就给我们的精准推荐带来了挑战:我们如何确定这个时间点背后的是个什么样的角色呢?

最终我们通过声纹识别、行为训练和分析,形成了家庭 ID 识别的深度模型,它能识别你是男性女性老人小孩,然后整体形成家庭画像,再以家庭画像为依托,对用户进行千人千面的精准推荐。

智能财务 OCR(光学字符识别)识别

我们公司在做财务上云的过程中,进行了财务的集中化处理,集中化之后就累计了大量的数据需要进行精细化的采集和分析,所以我们开发了一套 OCR 系统来做票据数据的采集。

实际业务开展过程我们会在 A4 纸上贴很多票,所以 OCR 系统需要首先对票据进行切割,切割完成后票据有些是歪的,我们需要把它旋转。由于我们的票据种类有很多,所以预处理做完之后,系统需要对它进行自动分类,也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别,字符识别完成后会进行字段的匹配,我们在字段这里加了语义纠偏的处理方式。

举一个例子,比如成都东站或者成都站,我们会根据爬取的信息,它会有车次信息,图谱会进行检索,检索这个车到底有没有经过成都站还是成都东站,以这个信息辅助我做整个字段识别的纠偏,从而提升整体的票面识别率。

目前,我们的 OCR 图像字符串识别率在国内、国际都属于领先地位,识别率达到97.9%,支持的票据类别 50 类,行业第一,形成 80.5 万条的标注数据集,改善了文字识别领域的一些核心算法,并成功形成了发票识别领域的语义库。

在这个项目过程中我们也实现了 20 多个自系统的数据统一归集,归集到一个数据中。在此之上,我们使用 Kyligence 构建了我们的数据仓库和数据集市,在解决构建非实时这个问题时,还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。

除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。

作者简介:蒲文龙,长虹集团数据服务部技术总监,擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计;主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • AI+金融技术分层解构 从分层的视角来看,AI+金融技术可分为基础层、技术层和应用层三个层面。作为AI在金融领域落...
    shenciyou阅读 2,704评论 1 5
  • /wxs 冰河之上,有绿色植物生长得 眉飞色舞 灰色鸭子从冬天深处游出来 冷风的逗点 它们划在波浪上 大波浪,大卷...
    衛国小师阅读 900评论 1 4
  • 红绸扇 文/灿然 2018/6/12 生活很匆忙 匆匆在路上 有时忘了初心 ...
    灿然at简书阅读 242评论 3 5