#开放新基建#后直播时代的计算与存储

E企研究院酝酿已久的信息基础设施实践者社群活动“开放新基建”终于在上个月正式启动。

正值“618”期间,

“开放新基建”系列活动的开篇

请来了京东云与AI硬件研发总监陈国峰先生,从超大规模用户的角度阐述疫情、直播带货对信息基础设施发展的影响。
接下来的直播则请到了国内服务器、存储领域的三位资深产品专家,前一篇我们从

#开放新基建#后疫情时代的计算与存储行业

进行探讨,本篇我们继续从新一代计算平台的角度展开探讨。由于涉及内容太多,分为多期连载,本篇为第二部分,大家可以扫描文中贴出的二维码或点击文末“阅读原文”回看访谈视频,或者阅读正文中的谈话内容整理,敬请期待后续有关功耗与冷却挑战、整机柜发展的新动向的探讨。

张广彬:我们虽然是探讨技术和应用为主,但是整个市场的形势,总体上来说关注咱们这个市场的还不是特别多,所以其实还是需要给大家一个整体市场状况的介绍,刚才也简单地说了说大家的看法。其实我们还是要围绕着技术和应用,刚才几位也都谈到了视频、线上,我可以说说我个人的体会,大家可以聊聊天。

扫码回看第二部分视频,时长约20分钟

其实咱们都关注OCP,刚才郑宇也提到了这个,Open Compute Project(开放计算项目),你们二位的公司,包括我们公司,都是OCP的成员。我们也是OCP成员。只不过你们是铂金(Platinum),我们是最低的那一档(Community)。但是确实大家都去关注这个领域的事情,我们也知道其实这个会往年都是3月份开的,但是今年搬到了线上。

搬到线上,其实这个体验差别就大了去了,第一要跨时区看这个直播,第二个是网络带宽。实际上OCP以前它自己的视频都是放在Youtube上的,大家都是回看。现在它自己搭了一个网站,是你能实时看了,结果我那天和另外一个朋友相约晚上爬起来看,卡得不行,卡得要死,包括带宽,而且我觉得受到歧视,像曾哥家里是1.6Mbps,我家里只能是800Kbps,就这还卡,实际上这就体现了线上对带宽的需求,过后你还要回看,你自己要存储,我觉得这是国外的例子。

卡就一个字,圈圈转不停

更近的例子就像咱们这个活动,如果没有疫情这件事情,咱们这个事情可能就是线下来做,以前我也办过这种活动,线下找个60~100个人,大家聊一聊,这个东西可能就不会搞什么直播之类的。但是搞了直播以后,对这个带宽,首先你要解决带宽的问题,还有存储,因为有更多的内容会被存储下来,当然这里面都离不开服务器。

简单来说,这些线上应用毫无疑问肯定是增加了对计算、存储和网络的需求,这是一个总体的感觉,但是进入服务器里面,什么时候我要用SSD,什么时候用硬盘,什么时候是内存去搞?我相信大家还不是特别清楚。Harry能不能从你的角度来说一说这个直播或者是线上这种视频对IT架构的计算和存储的影响?

农天使:刚才咱们说到OCP这些直播的体验好像不是特别好,我想OCP应该跟我们国内做直播的公司好好学一下,因为咱们国内直播不仅用户体验好,而且支持的用户基数也更多。

回到刚才咱们探讨的问题,在服务器层面会是怎样一个数据流动?

我想根据我的经验,应该说咱们做直播有很多互动和在线的诉求,所以我想大部分的压力会在CPU和内存这块,数据里面有一个频繁的交互,承载了大部分的压力。后面当数据落盘的时候才会落到SSD上,再到机械硬盘这个过程,我想应该是这样一个架构。这个也是头部客户里面目前用的一个分层的架构

张广彬:丁煜,刚才Harry提到了CPU、内存,我们也看到现在有人用专用的加速器,AI当然有专用的加速器,包括就像这次OCP上Facebook也提了它的视频转码加速器,实际上这些都对服务器的设计构成了一定的挑战,从你的角度看是怎样的?

丁煜首先感觉现在的应用确实是让CPU这个原本占据中心位置的一个数据处理单元的中心权威地位受到了影响。现在有很多的负载其实都已经放到了协处理器上,或者加速器上。就像您刚才提到的比如说视频类的、媒体类的处理,包括像AI更是目前比较依赖协处理器,甚至在网络上,也有很多网络的处理现在也都是通过一些像智能网卡(SmartNIC)、FPGA一类的技术来进行加速的。所以这块我感觉对产品的设计还是变化蛮大的。

因为这些应用,包括这些加速单元,它们是随着客户应用而变的,这个实际上对我们来说,可能以前我们只需要开发一个所谓的标准机型,通用产品,各行各业都可以买,都能用。但是现在因为客户的应用属性不同,他有可能对这个产品的设计就会提出不同的要求。这就是为什么现在我们有越来越多的客户有这种定制的诉求,因为确实是标准品在承载业务的时候不能做到效能最佳,相应的也给我们这些厂商带来了可以说是额外的压力吧,因为我们要针对它的应用重新设计产品,会增加我们的库存种类、运营难度,所以这一块我感觉对行业还是产生了非常大的影响的。

张广彬:我觉得丁煜说的有一点很对,因为前几天和美国一个很著名的服务器生产商的人交流,他也说大家都用标准品就好了嘛,为什么搞那么多定制呢?其实按我的理解是因为现在应用在变化,标准品可能是根据以前的市场来做的,那它可能在一个特别大规模的情况下效率不是最优。

另外一个,我感觉咱们差不多这20分钟了大家还是比较和谐的,但是我还是希望制造一些争端,比如说SSD和硬盘之间,刚才Harry也提到了分层,但是站在某大厂的角度,要用QLC取代硬盘,当然这个事情到现在还没有发生。郑宇,我不知道从你的这个位置上来说,你是不是支持QLC取代硬盘,或者说还是认为现在还是一种分层的形态?

郑宇:因为希捷也是存储业界的巨头,也是老兵,我们是新兵。所谓国产,我们也是个国产SSD企业级视频解决方案的一个供应商,我们其实也看到了实际上整个用户从计算、存储到网络传输的通路上都在面对像直播、线上巨大的压力在打通这条路径,在寻找好的方法,但是最终我们是以服务器为整体来形成在基础架构上的支撑。

这个分层的概念我非常认同。分层首先从Flash慢慢成为存储的主要的一个从性能和容量上的新层次来看,我觉得这两年已经呈现出了巨大的变化。实际上我们从过去的讲法上叫这个数据的温度,开始逐步地升温了,整个网络形成的虚拟世界越来越讲究体验。这个体现在IOPS有没有更多的用户可以同时地并发支撑,也体现在延时上我们能让用户更好地体验到及时的一些数据反馈。这方面我们认为如果国产的方案和国内的研发团队进入是有利于帮助用户在各种新的,不管是分层还是个性化的体验上更好地得到支撑。

从我们现在的看法来讲,不只是在硬盘和Flash上产生了分层,事实上在Flash内部也是有分层的。最初是MLC,逐步切换到TLC,现在还有QLC的新话题,甚至PCM也有可能加入进来。其实大家最终的诉求我觉得是两点,一个是更好的容量、性能的增加,另外一个是性价比能不断地提升。所以这是一个动态的比较的过程。

现在来看,TLC和QLC两个技术的思路不一样。一个是存储数据的位元数会有密度的增加。从TLC本身来看它的多少层,3D的层数也是对密度的增加,实际上我认为是一个竞赛。但是,QLC和TLC在存储的介质特性上是不一样的,应该讲TLC今天我们看到还是明显地呈现了在耐用性、整体设计的成熟度各方面上的优势。所以我个人认为如果TLC在整个3D密度层次上能够继续良性上升的话,对QLC能否产生真正的规模化的替代是有相当的压力的。

今天来看,我仍然认为QLC可能在消费类市场应该是比较适用的一个介质。而对于企业级的数据中心,如果TLC能够随着技术演进继续发展,对QLC能否顺利地进入这个市场成为主流,还有待观察。这是我的观点。

张广彬:我感觉老郑同学没有上我的圈套,还对友商进行了一番推广。虽然我本人也是从接触硬盘开始,因为毕竟岁数大了,我年轻的时候SSD,不能说没这个概念,但是你想不到它能到跟硬盘一较短长的地步。过去10年来,我们看到SSD对硬盘构成了相当多的(威胁),不能说替代,比如你从我的角度来说,我就特别爱升级机器,因为CPU的发展其实并没有那么快,大家也都知道,大英在挤牙膏,可能一会儿我们要谈到挤牙膏这个事情,但是其实SSD过去这些年,尤其是前几年发展还是比较快的,所以你看这个机器它用的这个硬盘,性能还是差一点,我就会选择给它加一个SSD,然后让硬盘更多地去做数据存储。SSD当然是随机性能特别好,但是如果完全从顺序访问的角度来说,其实硬盘的差距没有那么大,所以站在我的角度来说可能也不单是一个分层的角度,另外可能是不同的数据类型(的角度)。

我不知道是不是有很多人跟我一样,不知道算不算偏见,就是我随机性能要求比较高我就放在SSD上,我对硬盘其实主要是个带宽,对硬盘的延迟好像没什么要求。但是很有意思,我发现这次OCP线上峰会它放出来的一些存储的workshop里面,有相当多的比例都在谈怎么降低硬盘在大规模环境使用中的延迟、时延,包括Facebook和微软都在研究这个。所以我感觉比较困惑,是不是我的认识还是有点片面?仍然有很多应用还是需要用硬盘的?包括哪怕是对延迟比较重视的应用,它也还是希望在现有的架构下能够更充分地把硬盘用得更好?所以我的问题比较长,不知道Harry有没有get到我的点?

增加队列深度可以提高硬盘的throughput,但是少量尾部延迟会恶化

农天使:对,我觉得狒哥刚才给我们挖了个坑。

张广彬:但是你们不跳。

农天使:对,我们都没跳。我觉得SSD取代硬盘这个争论,可能在过去的几年前是一个很热的话题,那时候大家可能都站在不同阵营,大家的争论就会比较激烈。但是走到了今天,我觉得大家基本上有一个共识,相辅相成,各有所长。特别是我们达成了一个共识,比如在台式机硬盘或者笔记本硬盘上基本上后面会收敛到SSD这条路,但是在企业级,在数据中心这部分,像我们的近线级(Near-Line)企业盘以及监控盘,还有NAS盘市场的增长,还有这个必要性,大家看得是比较清楚的。

又回到刚才说的问题,以前很多朋友,特别是互联网的朋友,说我解决I/O的问题,我解决性能的问题我就用SSD,为什么今年反而是在OCP上有这么多的讨论说我要把硬盘的性能,特别是延迟这块,我要想办法再提升或者是让它更可控、可预测?归根到底,是咱们的应用在不断地演进,而且不同的应用它有不同的需求,一旦咱们的应用发展到了一定的规模,量变引起质变,那时候就不是简单地说我选SSD来解决性能这么简单的一个问题了,因为那时候如果这么简单地来看问题,往往意味着成本和投入是非常非常巨大的。

因为像我们的硬盘比如它的响应时间是毫秒(ms)级的,但是在真实的应用环境里面网络的延迟跨城之间可能也是几十毫秒、上百毫秒的,也是非常正常的。甚至如果有一些情况,还会更大。在这种环境下面,硬盘的延迟是很有价值去探讨的一个话题。我们看到现在一些大厂,比如微软、Facebook在密切关注这个问题。国内头部的互联网客户也在关注这方面的问题。核心就在于大家会关心反馈的延迟,希望在一个可控的水平里面。比如说100毫秒以内,50毫秒以内,我们希望有99%还是多少的一个响应时间是在这个区间里面的。这就是应用我们的QoS(Quality of Service,服务质量)做得比较好。

本届OCP线上峰会存储部分的一个议题,通过划分优先级的方式保证高优先级应用99%的读延迟降低,代价是低优先级应用99%的读延迟成倍增加,即不同的QoS

引申开来,一方面在单个盘上面咱们会有这方面的探讨,同时现在我们主流出货的最大容量已经到16TB了,后面还有更大的。单个盘的IOPS慢慢地大家也会有一些挑战。

张广彬:对,这个问题接下来我们再去讨论,因为我们确实也不希望一段谈话太长。当然有个观念是涉及到公共的话题会让听众感觉到信息量太大。但是Harry说的有一点很重要,我也受到了启发,其实应用对于延迟的追求并不是(极致最小),当然越小越好,但是不同的应用只要达标了就可以,但是最关键的主要是你延迟的稳定性,就像你说的99%延迟,比如大家就怕这种,就有0.1%的延迟,它特别长,这个QoS就受了这个影响了,所以我觉得可能Harry至少部分解答了,我看微软、Facebook的方案,其实它就是把整体的延迟控制在一个可以接受的水平,自然有适合它的应用还接着可以用它。


未完待续……  
  

请点击“阅读原文”查看本期开放新基建访谈视频。

开放新基建回顾:

开放新基建首播回放:买买买的热与冷

#开放新基建#后疫情时代的计算与存储行业






变革与创新,从未停息。DT时代聚焦最新基础架构设施和技术的的进展,关注企业数字化转型优秀案例,专注企业级方案和技术的传播和创新企业的成长,触及企业的变革与转型,目前覆盖的渠道有:今日头条、百度百家、知乎、搜狐新闻(DTValue)、天天快报、凤凰新闻、网易新闻、大鱼、一点资讯等多家平台。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,165评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,720评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,849评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,245评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,596评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,747评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,977评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,708评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,448评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,657评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,141评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,493评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,153评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,890评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,799评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,685评论 2 272