笔记-TFS

互联网应用经常需要存储用户上传的文档、图片、视频等,比如Facebook相册、淘宝图片、Dropbox文档等。文档、图片、视频一般称为Blob数据,存储Blob数据的文件系统也相应地称为Blob存储系统。每个Blob数据一般都比较大,而且多个Blob之间没有关联。Blob文件系统的特点是数据写入后基本都是只读,很少出现更新操作。这两节分别以Taobao File System和Facebook Haystack为例说明Blob文件系统的架构。

2007年以前淘宝的图片存储系统使用了昂贵的NetApp存储设备,由于淘宝数据量大且增长很快,出于性能和成本的考虑,淘宝自主研发了Blob存储系统Tabao File System(TFS)。目前,TFS中存储的图片规模已经达到百亿级别。

TFS架构设计时需要考虑如下两个问题:

Metadata信息存储。由于图片数量巨大,单机存放不了所有的元数据信息,假设每个图片文件的元数据占用100字节,100亿图片的元数据占用的空间为10G×0.1KB=1TB,单台机器无法提供元数据服务。

减少图片读取的IO次数。在普通的Linux文件系统中,读取一个文件包括三次磁盘IO:首先读取目录元数据到内存,其次把文件的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,无法将所有目录及文件的inode信息缓存到内存,因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,TFS设计时采用的思路是:多个逻辑图片文件共享一个物理文件。

系统架构

TFS架构上借鉴了GFS,但与GFS又有很大的不同。首先,TFS内部不维护文件目录树,每个小文件使用一个64位的编号表示;其次,TFS是一个读多写少的应用,相比GFS,TFS的写流程可以做得更加简单有效。

如图4-4所示,一个TFS集群由两个NameServer节点(一主一备)和多个DataServer节点组成,NameServer通过心跳对DataSrver的状态进行监测。NameServer相当于GFS中的Master,DataServer相当于GFS中的ChunkServer。NameServer区分为主NameServer和备NameServer,只有主NameServer提供服务,当主NameServer出现故障时,能够被心跳守护进程检测到,并将服务切换到备NameServer。每个DataServer上会运行多个dsp进程,一个dsp对应一个挂载点,这个挂载点一般对应一个独立磁盘,从而管理多块磁盘。


在TFS中,将大量的小文件(实际数据文件)合并成一个大文件,这个大文件称为块(Block),每个Block拥有在集群内唯一的编号(块ID),通过<块ID,块内偏移>可以唯一确定一个文件。TFS中Block的实际数据都存储在DataServer中,大小一般为64MB,默认存储三份,相当于GFS中的chunk。应用客户端是TFS提供给应用程序的访问接口,应用客户端不缓存文件数据,只缓存NameServer的元数据。

1.追加流程

TFS中的追加流程相比GFS要简单有效很多。GFS中为了减少对Master的压力,引入了租约机制,从而将修改权限下放到主ChunkServer,很多追加操作都不需要Master参与。然而,TFS是写少读多的应用,即使每次写操作都需要经过NameNode也不会出现问题,大大简化了系统的设计。另外,TFS中也不需要支持类似GFS的多客户端并发追加操作,同一时刻每个Block只能有一个写操作,多个客户端的写操作会被串行化。

如图4-5所示,客户端首先向NameServer发起写请求,NameServer需要根据DataServer上的可写块、容量和负载加权平均来选择一个可写的Block,并且在该Block所在的多个DataServer中选择一个作为写入的主副本(Primary),其他的作为备副本(Secondary)。接着,客户端向主副本写入数据,主副本将数据同步到多个备副本。如果所有的副本都修改成功,主副本会首先通知NameServer更新Block的版本号,成功以后才会返回客户端操作结果。如果中间发生任何错误,客户端都可以从第一步开始重试。相比GFS,TFS的写流程不够优化,第一,每个写请求都需要多次访问NameServer;第二,数据推送也没有采用流水线方式减小延迟。淘宝的系统是需求驱动的,用最简单的方式解决用户面临的问题。


每个写操作返回后,会返回客户端两个信息,小文件在TFS中的Block编号(Block id)以及Block偏移(Block offset)。应用系统会将这些信息保存到数据库中,图片读取的时候首先根据Block编号从NameServer查找Block所在的DataServer,然后根据Block偏移读取图片数据。TFS的一致性模型保证所有返回给客户端的<Blockid,Block offset>标识的图片数据在TFS中的所有副本都是有效的。

2.NameServer

NameServer主要功能是:Block管理,包括创建、删除、复制、重新均衡;Data-Server管理,包括心跳、DataServer加入及退出;以及管理Block与所在DataServer之间的映射关系。与GFS Master相比,TFS NameServer最大的不同就是不需要保存文件目录树信息,也不需要维护文件与Block之间的映射关系。

NameServer与DataServer之间保持心跳,如果NameServer发现某台DataServer发生故障,需要执行Block复制操作;如果新DataServer加入,NameServer会触发Block负载均衡操作。和GFS类似,TFS的负载均衡需要考虑很多因素,如机架分布、磁盘利用率、DataServer读写负载等。另外,新DataServer加入集群时也需要限制同时迁入的Block数量防止被压垮。

NameServer采用了HA结构,一主一备,主NameServer上的操作会重放至备NameServer。如果主NameServer出现问题,可以实时切换到备NameServer。

讨论

图片应用中有几个问题,第一个问题是图片去重,第二个问题是图片更新与删除。

由于用户可能上传大量相同的图片,因此,图片上传到TFS前,需要去重。一般在外部维护一套文件级别的去重系统(Dedup),采用MD5或者SHA1等Hash算法为图片文件计算指纹(FingerPrint)。图片写入TFS之前首先到去重系统中查找是否存在指纹,如果已经存在,基本可以认为是重复图片;图片写入TFS以后也需要将图片的指纹以及在TFS中的位置信息保存到去重系统中。去重是一个键值存储系统,淘宝内部使用5.2节中的Tair来进行图片去重。

图片的更新操作是在TFS中写入新图片,并在应用系统的数据库中保存新图片的位置,图片的删除操作仅仅在应用系统中将图片删除。图片在TFS中的位置是通过<Block id,Block offset>标识的,且Block偏移是在Block文件中的物理偏移,因此,每个Block中只要还有一个有效的图片文件就无法回收,也无法对Block文件进行重整。如果系统的更新和删除比较频繁,需要考虑磁盘空间的回收,这点会在Facebook Haystack系统中具体说明。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容

  • 分布式文件系统的主要功能有两个:一个是存储文档、图像、视频之类的Blob类型数据;另外一个是作为分布式表格系统的持...
    olostin阅读 2,959评论 1 5
  • 分布式系统面临的第一个问题就是数据分布,即将数据均匀地分布到多个存储节点。另外,为了保证可靠性和可用性,需要将数据...
    olostin阅读 4,428评论 2 26
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,103评论 18 139
  • 3个职场变化趋势 1.工作内容不确定 2.零工经济抬头 聘用项目相关技能人才,非全职人才,弹性上班人员 3.公布式...
    唐花花阅读 228评论 0 0
  • 选择基金经理的方法 对于大多数投资者来说,多数时候基金选择的最终落脚点在于寻找一个安全可靠的基金经理,尤其是对于主...
    执着的80后阅读 408评论 0 5