Jetpack -room (二)安卓全文检索

Jetpack Room不支持icu分词,默认分词对中文支持很差。不考虑自定义分词且的情况可以使用WCDB(腾讯开源),且使用方法与Room的使用一致、入侵性低。

此处介绍的方案和需求主要针对需要进行离线存储查询

一、简介

Android端本离线本地分词主要使用FTSFTS版本如下所示,目前使用较多的FTS4,Room没有对于FTS5的支持。

前置知识点:

  • compressuncompress用于支持压缩和解压缩
  • content用于创建无正文表(只有索引)和外部正文表(正文来自其他表而非虚表本身)等
  • matchinfo用于以FTS3方式存储FTS4,忽略FTS4额外所需的信息,但是功能也会因此受限
  • notindexed指定某个列为非索引列
  • prefix= 额外为指定自己的前缀创建索引
  • tokenizer:FTS4提供了四种系统分词器:simpleportericuunicode61,中文推荐使用icu

tokenizer分词:

@Fts4(tokenizer = FtsOptions.TOKENIZER_SIMPLE)
类型 描述
simple 根据单词进行分词,不区分大小写且不支持中文
porter 与simple一样,但是不区分单词语义(搜索do时,能搜索到do、did、does)
icu 将输入文本根据ICU规则寻找单词边界和丢弃任何标记,支持中文,可拓展(ROOM支持,建议结合WCDB使用)
unicode61 根据空格和标点符号进行分词,依赖于Unicode Version 6.1标准,支持中文

二、使用介绍

以下方式为room使用fts

1、创建FTS

@Fts4(tokenizer = FtsOptions.TOKENIZER_SIMPLE)
@Entity
public class FTS {
    public String title;

    public FTS(String title) {
        this.title = title;
    }
}

2、语法介绍

关于FTS的增删改这里就不多介绍了,与Room操作相同,这里主要介绍FTS的查询中一些特殊点,更多使用和介绍可以查看官网:FTS

基本查询:使用MATCH,可以理解为sql语法中的like

SELECT * FROM mail WHERE rowid = 15;                -- Fast. Rowid lookup.
SELECT * FROM mail WHERE body MATCH 'sqlite';       -- Fast. Full-text query.
SELECT * FROM mail WHERE mail MATCH 'search';       -- Fast. Full-text query.
SELECT * FROM mail WHERE rowid BETWEEN 15 AND 20;   -- Fast. Rowid lookup.
SELECT * FROM mail WHERE subject = 'database';      -- Slow. Linear scan.
SELECT * FROM mail WHERE subject MATCH 'database';  -- Fast. Full-text query.

短语查询:短语查询以指定的顺序检索包含指定的术语集或术语前缀的所有文档,而不包含中间标记

SELECT * FROM docs WHERE docs MATCH '"linux applications"';
SELECT * FROM docs WHERE docs MATCH '"lin* app*"';

Near查询

AND:运算符确定两组文档的交集

OR:运算符计算两组文档的并集

NOT:非运算符;

3、示例

创建Dao,编写查询语句:

@Dao
public interface FTSDao {

    @Insert(onConflict = OnConflictStrategy.REPLACE)
    void insertFTS(FTS fts);

    @Query("select * from FTS where title match :query")
    List<FTS> queryAll(String query);

    //测试一直返回为空,没搞明白原因,下面可能是原因
    //如果在使用“通过rowid查询”或“线性扫描”策略的SELECT中使用,则代码片段都会返回空字符串
    @Query("select snippet(fts, '<b>', '</b>', '...', -1, 15) from fts where title match :query")
    List<FTS> queryAllSnippet(String query);
}

创建假数据:

AppDatabase appDatabase = AppDatabase.getSingleton(this);
for (int i = 0; i < 6000; i++) {
  appDatabase.ftsdao().insertFTS(new FTS(i + "Room是安卓中SQLite上的一个抽象层应用框架,可以更轻松、更好地保存数据。"));
}

执行查询:

long timeMillis = System.currentTimeMillis();
List<FTS> sqLite = appDatabase.ftsdao().queryAll("SQLite");
Log.i(TAG, "查询数量: " + sqLite.size());
Log.i(TAG, "时间: " + (System.currentTimeMillis() - timeMillis));

输出:

2019-06-23 22:17:04.886 4536-4536/com.active.loser.jetpack I/MainActivity: 查询数量: 6000
2019-06-23 22:17:04.887 4536-4536/com.active.loser.jetpack I/MainActivity: 时间: 74

其他方案:使用lucene进行本地分词

推荐阅读更多精彩内容