PostGis空间索引

索引的种类

PostgreSQL默认支持3种索引:B-Tree indexes, R-Tree indexes和 GiST indexes。

B-Tree用于可以在一个方向上排序的数据,如数字(numbers),字母(letters),日期(dates)。地理数据不能再一个方向上排序,所以B-Tree不能用于地理数据。

R-Trees是将数据分解成矩形,子矩形,子子矩形等。R-Trees被一些数据库用于地理数据的索引。但是PostgreSQL的R-Tree实现没有GiST实现那么健壮。

GiST(Generalized Search Trees)将数据分解成“东西在哪一边”,“东西覆盖什么”,“东西在什么里”,它可以用于广泛的数据结构,包括地理数据。PostGIS在GiST的基础上实现R-Tree去索引地理数据。

GiST的全称是“通用搜索树”,是索引的一般形式。

GiST用于加快各种不规则数据结构(整形数组,光谱数据等)的查询速度,这些数据不服从普通的B-Tree索引。

一旦地理数据表超过几千行,你就需要建立一个索引来加快数据的空间搜索(除非你的所有搜索都基于非地理属性)。

建立GiST索引的语法:

CREATE INDEX [indexname] ON [tablename] USING GIST ( [geometryfield] );

上面的语法是将建立2D索引。要建立PostGIS2.0+支持的n维索引,你可以用下面的语法:

CREATE INDEX [indexname] ON [tablename] USING GIST ([geometryfield] gist_geometry_ops_nd);

建立空间索引是一个计算密集的工作:在一个1百万数据的表里,300MHZ的Solaris机器上,建立GiST索引大约需要1个小时。

建立索引之后,非常重要的是要强制PostgreSQL做优化查询的数据表分析:

VACUUM ANALYZE [table_name] [(column_name)];

-- 下面只在PostgreSQL 7.4以下(含)版本需要

SELECT UPDATE_GEOMETRY_STATS([table_name], [column_name]);

GiST索引比R-Tree索引有两个优势。

第一、GiST索引是"null值安全"的,索引的字段可以包括空值(null)。

第二、GiST索引支持"lossiness"的概念,这个概念对于大地理数据分厂重要(大于PostgreSQL的8K页面大小)。Lossiness允许PostgreSQL只存储地理信息中“重要”的一部分数据到索引中,仅计算边框。地理数据大于8K会导致R-Tree索引创建失败。

通常情况下,索引加快数据访问。一旦索引建立,查询规划器决定何时使用索引信息来加快查询,这个过程是透明的。

不幸的是,PostgreSQL查询规划器对GiST索引的优化不是很好,所以有些查询需要使用空间索引来替代默认的遍历全表。

如果你发现你的空间索引没有被使用,你可以做以下几件事情:

1、首先,确保分析收集了表的记录数量和分布,保证查询规划器使用更好的索引进行优化查询。从PostgreSQL8.0版本以后,运行VACUUM ANALYZE操作。你应该定期运行vaccuum。

2、如果vacuum不起作用,你可以强制规划器使用索引信息,通过使用SET ENABLE_SEQSCAN=OFF命令。你应该谨慎使用这个命令,并只在空间索引的查询中使用。一般来说,使用B-Tree索引时,查询规划器会更好的知道如何查询,一旦你运行了你的查询,应该考虑将ENABLE_SEQSCAN设置回来,这样其他查询可以正常利用规划器。

3、如果你发现查询规划器在全表遍历和索引使用上有错误,试着减少postgresql.conf中random_page_cost的值,或者使用SET random_page_cost=#命令。默认值是4,设置成1或2。递减该值使规划器更倾向于使用索引扫描。

检查索引的使用

尽管在PostgreSQL中的索引不需要维护或调整,但是检查索引在真实查询中的作用还是非常重要的。

检查独立查询中的索引使用情况可以使用EXPLAIN命令。

很难用跟一个标准化公式来决定需要创建哪些索引。

这里有一些典型事例:

1、总是先运行ANALYZE。这个命令收集统计数据在表中的分布值。这个值是估计查询结果条数所必须的,查询规划器根据它来实际分配查询消耗。在缺乏任何真正的统计数据时,会使用一些假设的默认值,这是几乎可以肯定是不准确的。在不运行ANALYZE时就检查索引的使用是错误的。

2、使用真实数据进行实验。

3、当索引未被使用时,可以强制使用。有些运行参数可以关掉各种规划类型。

例如关闭顺序扫描(ENABLE_SEQUSCAN)和嵌套循环连接(ENABLE_NESTLOOP),关掉这些最基本的规划,可以破事系统使用不同的规划。如果系统仍然使用循序扫描或前台循环连接则可能是不适用索引的根本原因。比如查询条件不匹配索引。

4、如果强制使用索引时,索引被使用了,那么有两种可能:使用的索引不恰当或者查询规划器的消耗估计不反应真实情况。

可以用EXPLAIN ANALYZE命令找原因。

5、如果证明是查询规划器的消耗估计错误,有两种可能:

1)总消耗是从每行节点的时间倍数计算得来。估计该规划节点的消耗可以通过运行参数进行调整。

2)不准确的评估是由于统计数据不足造成的。有可能可以通过调整statistics-gathering参数来改善。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容