一文看懂图数据库

1. Why Graph DB?

N 度人脉问题

社交网络应用中,基于直接好友关系(t_user_friend(user, friend)),如何构建用户的 N 度人脉?

1 度人脉:SELECT uf.friend FROM t_user_friend AS uf WHERE uf.user = ?

2 度人脉:SELECT uf2.friend FROM t_user_friend AS uf1 INNER JOIN t_user_friend AS uf2 ON uf1.friend = uf2.user WHERE uf1.user = ?

3 度人脉:SELECT uf3.friend FROM t_user_friend AS uf1 INNER JOIN t_user_friend AS uf2 ON uf1.friend = uf2.user INNER JOIN t_user_friend AS uf3 ON uf2.friend = uf3.user WHERE uf1.user = ?

......

在数据集包括 100 万人,每人约有 50 个朋友时实验结果如下:

从试验数据看,传统的关系型数据库在处理数据关联上显得力不从心。从哲学上看世间万物均有联系,不存在孤立的事物,我们无法回避,NoSQL能成为救星吗?

NoSQL 的种类

键值(key/value)数据库

列存储数据库

文档型数据库

图数据库

没错,图数据库就是天生用来解决联系的,使用最主流的图数据库 Neo4j 处理上面的 N 度人脉问题,与 MySQL 性能对比如下:

由于人类社会的各领域无处不存在联系,图数据库作为唯一能很好解决关联问题的数据库,得到了广泛应用:

社交领域:Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐

零售领域:eBay,沃尔玛使用它实现商品实时推荐,给买家更好的购物体验

金融领域:摩根大通,花旗和瑞银等银行在用图数据库做风控处理

汽车制造领域:沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案

电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理网络,控制访问

酒店领域:万豪和雅高酒店等顶级酒店公司使用图数据库来管理复杂且快速变化的库存

2. 带标签的属性图模型


(1)节点

节点是主要的数据元素

节点通过关系连接到其他节点

节点可以具有一个或多个属性(即,存储为键/值对的属性)

节点有一个或多个标签,用于描述其在图表中的作用

(2)关系

关系连接两个节点

关系是方向性的

节点可以有多个甚至递归的关系

关系可以有一个或多个属性(即存储为键/值对的属性)

(3)属性

属性是命名值,其中名称(或键)是字符串

属性可以被索引和约束

可以从多个属性创建复合索引

(4)标签

标签用于将节点分组

一个节点可以具有多个标签

对标签进行索引以加速在图中查找节点

本机标签索引针对速度进行了优化

3. Cypher 图查询语言

Cypher是 Neo4j 的图形查询语言,允许用户存储和检索图形数据库中的数据。

举例,我们要查找 Joe 的所以二度好友:


查询语句如下:

MATCH

  (person:Person {name:"Joe"})-[:KNOWS]->(friend:Person)-[:KNOWS]->

  (foaf:Person)

WHERE

  NOT (person)-[:KNOWS]->(foaf)

RETURN

  foaf   

Joe认识Sally,Sally认识Anna。 Bob被排除在结果之外,因为除了通过Sally成为二级朋友之外,他还是一级朋友。

4. 数据存储

数据存储主要分为节点、关系、节点或关系上属性这三类数据存储,这些数据也可以通过Lucene进行存储检索。

节点(指向联系和属性的单向链表,neostore.nodestore.db):第一个字节,表示是否被使用的标志位,后面4个字节,代表关联到这个节点的第一个关系的ID,再接着的4个字节,代表第一个属性ID,后面紧接着的5个字节是代表当前节点的标签,指向该节点的标签存储,最后一个字符作为保留位。

联系(双向链表,neostore.relationshipstore.db):第一个字节,表示是否被使用的标志位,后面4个字节,代表起始节点的ID,再接着的4个字节,代表结束节点的ID,然后是关系类型占用5个字节,然后依次接着是起始节点的上下联系和结束节点的上下联系,关系的最近属性ID,以及一个指示当前记录是否位于联系链的最前面。通过节点的前后关系形成双向链表,可以快速搜索到节点所有相关的边。

属性(neostore.propertystore.db)也是固定大小,每个属性记录包括4个属性块(一个属性记录最多容纳4个属性)和指向属性链中下一个属性的ID.。属性记录包括属性类型和指向属性索引文件的指针(neostore.propertysotre.db.index)。同时属性记录中可以内联和动态存储,在属性值存储占用小时,会直接存储在属性记录中,对于大属性值,可以分别存储在动态字符存储(neostore.propertysotre.db.strings)和动态数组存储(neostore.propertysotre.db.arrays)中,由于动态记录同样由记录大小固定的记录链表组成,因此大字符串和大数组会占据多个动态记录。

举个例子:


5. 图数据库排名

根据 DB-Engines 最新发布的图数据库排名,Neo4j 仍然大幅领先排在第一位

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容