Solr-富文本索引

Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入：

 <requestHandler name="/update/extract"     class="solr.extraction.ExtractingRequestHandler" >  
    <lst name="defaults">
      <str name="fmap.content">content</str>
      <str name="fmap.Content-Type">Content-Type</str>
      <str name="uprefix">ignored_</str>
    </lst>
    <lst name="date.formats">
      <str>yyyy-MM-dd</str>
    </lst>
  </requestHandler>

solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

<div class="alert alert-info" role="info">
ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，
</div>

配置解释：

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >：其中name=update/extract为改request的请求路径。
fmap.xxx 为从文件中抽取的内容，定义这些内容如何存储。如在这里：

   <str name="fmap.content">content</str>  <!--文件内容-->
   <str name="fmap.Content-Type">Content-Type</str> <!--文件类型-->

官方文档关于fmap的描述：

意思很简单就是字段的映射。

uprefix 这个配置用于将文件中其它不需要的内容统一加上指定前缀，如这里加上了ignored_。在schema.xml中有该字段与类型配置：

<dynamicField name="ignored_*" type="ignored" multiValued="true"/>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />

这是个动态字段，即所有以ignored_开头的字段都按ignored这个type处理。在这达到的忽略这些数据的目的。

调用/update/extract完成文件索引

调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用：

//建立客户端连接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");

//单个文件索引
public void  indexFromFile(String fileName,String id) throws Exception{
        //ContentStreamUpdateRequest 是专门用来提交文件的
        ContentStreamUpdateRequest  request=new ContentStreamUpdateRequest("/update/extract");
        String contentType="application/text";
        
        request.addFile(new File(fileName), contentType);
       //literal.xxx 文件以外的字段，xxx将直接映射到schema.xml中的同名字段
        request.setParam("literal.id", String.valueOf(id));  
        request.setParam("literal.author", author);  
        request.setParam("literal.title", tilte);  

        request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);   
        client.request(request);
        
        client.commit();
        
    }

public static void main(String[] args)  {
        try{
        SolrMananger client=new SolrMananger();
        client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
        }catch(Exception e){
            e.printStackTrace();
        }
        }

运行后，查看solr控制台，使用query验证文件是否成功索引。

可以看到查询结果，且各个字段的值都与预想一样。

关于批量文件生成索引，需要注意性能问题，应做到：

原文：http://my.oschina.net/u/1403753/blog/468439

client.commit();操作应该放在最外层，即最后提交一次。
不设置action。
一个文件一个ContentStreamUpdateRequest对象，否则会造成contentStream递增，从而影响效率。

代码如下：

SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
    request=new ContentStreamUpdateRequest("/update/extract");
    request.addFile(new File("mailing_lists.pdf"));
    request.setParam("literal.id", "mailing_lists.pdf");
    //request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注释这行代码。
    client.request(request);
} 
client.commit();

schemal.xml:


<?xml version="1.0" encoding="UTF-8" ?>
<schema name="sjsmhp" version="1.5">
   <uniqueKey>id</uniqueKey>
   <field name="id" type="long" indexed="true" stored="true" required="true" multiValued="false" ></field> 
   <field name="content" type="text_general" indexed="true"  stored="true"  omitNorms="true"></field> 
   <field name="author" type="text_general" indexed="true" stored="true" ></field> 
   <field name="title" type="text_general" indexed="true" stored="true" ></field> 
   <field name="docType" type="string" indexed="true" stored="true" ></field>
   <field name="Content-Type" type="string" indexed="false" stored="true"></field> 
   <field name="last_modified" type="date" indexed="true" stored="true"  ></field>  
   <field name="_version_" type="long" indexed="true" stored="true"></field>
   <field name="_root_" type="string" indexed="true" stored="false"></field>
   <dynamicField name="ignored_*" type="ignored" multiValued="true"></dynamicField> 
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" ></fieldType>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"></fieldType>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" ></fieldType>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"></fieldType>
   <fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" ></fieldType>

   <!--中英文分词-->
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
    </fieldType>
</schema>

最后编辑于：2017.12.04 04:22:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,847评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,208评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,587评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,942评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,332评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,587评论 1赞 218
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,853评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,568评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,273评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,542评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,033评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,373评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,031评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,073评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,830评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,628评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,537评论 2赞 269

Solr-富文本索引

推荐阅读更多精彩内容