Solr 环境搭建(windows)

1 准备工作及相关介绍

solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3

java运行环境 jdk1.7以上

mysql 5.x

tomcat7

sor归档文件地址: http://archive.apache.org/dist/lucene/solr/  选择你需要的版本和操作系统对应的文件。windows下载*.zip的文件。以solr-4.10.3.zip为例,解压后获得以下目录结构:




solr的安装需要涉及到solrhome与solrcore等基本概念。安装配置solr其实与我们安装sql数据库类似,solrhome相当于是一个home目录,它下面包含了多个数据集合solrcore。在mysql中,我们使用工具navicat时,需要建立连接,然后再这个连接里建立数据库,在对应的数据库里建立数据表。solrhome在这里就可以理解为“数据库”,solrcore理解为“数据表”。

安装

tomcat及java运行环境这里不做介绍。我们需要将solr的war包复制到tomcat下,并添加相关依赖包,相关的配置。

这里约定我的目录结构,solr的资源包解压的目录为d:\solr-4.10.3 以下简称solr_4.10.3

tomcat的目录为d:\dev\tomcat\tomcat7-solr  以下简称catalina_home

自定义的solrhome目录为D:\develop\12-solr\solrhome 以下简称solr_home

1 (目的:将官方资源包下的solr.war拷贝到本地tomcat下使用)拷贝solr.war

  从solr下载的目录solr_4.10.3\example\webapps 下solr.war到catalina_home\webapps目录。在tomcat目录下catalina_home\bin下点击startup.bat 启动容器。此时solr.war会被解压出来,将webapps下的solr.war删除,保留解压后的solr文件夹。

2 添加扩展服务包,将solr_4.10.3\example\lib\ext 下的所有jar包(依赖日志包)拷贝到tomcat catalina_home\webapps\solr\WEB-INF\lib 下

3 配置文件添加修改

复制solr_4.10.3\example\resources 下log4j.properites 到catalina_home\webapps\solr\WEB-INF\classes 并修改catalina_home\webapps\solr\web.xml 指定solr/home的配置(将注释取消并修改)如下

找到env-entry-name为solr/home,配置env-entry-value为D:\develop\12-solr\solrhome  (solr-home的目录按你的指定)。

3 solrhome和solrcore的安装

solrhome是solr服务运行的主目录,一个solrhome包含多个 solrcore,一个solrcore目录里有一个solr实例运行和配置的文件和数据,每个solrcore都可以独立对外提供搜索和索引服务。多个solrcore是相互独立的。在下载的资源文件中solr_4.10.3\example\solr(就是solrhome)下包含一个文件夹collection1(就是solrcore),solrcore下包含conf,core.properties,README.txt,data(默认的solr数据目录,包含索引文件和tlog日志信息)。所谓solrcore和solrhome的安装就是以上文件的拷贝和配置。

由于tomcat下的solr服务中的web.xml指定了solrhome目录(D:\develop\12-solr\solrhome)将solr_4.10.3\example\solr下的所有文件拷贝到D:\develop\12-solr\solrhome (solrhome,solrcore基本安装完成,还差配置)。

solrcore配置,solrcore/conf目录下有个solrconfig.xml的配置文件。在该文件里主要配置lib,datadir,requestHandler(如果不配置,使用的是默认的配置)

到此,基本的安装就结束了,重启tomcat服务器,访问本地服务器/solr就可以进入solr的dashboard。

solrconfig.xml

solrcore下config里有一个文件solrconfig.xml用来配置solrcore的运行信息。核心包含lib,datadir,requestHandler

lib标签

solrcore需要添加扩展依赖包,通过lib就可以指定依赖包的地址

例如其中的一个配置(这是solr_4.10.3\example\solr\collectioin1\conf\solrconfig.xml下的配置文件)

<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />

<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

这里lib的元素dir,regex表示要指定lib的目录和匹配的表达式。solr.install.dir表示solrcore的安装目录。../代表跳转文件上一级。${solr.install.dir:../../..}其实就到了solr_4.10.3目录,这个目录里有contrib,bin,dist,docs,example。很明显,我们需要拷贝contrib和dist目录到我们制定的目录(不然依赖包找不到)。之前指定了solr_home为D:\develop\12-solr\solrhome,我们将contrib和dist复制到D:\develop\12-solr\下,修改D:\develop\12-solr\solrhome\collection1\conf\solrconfig.xml

此时我们lib的dir需要修改前缀为${solr.install.dir:../..}

datadir标签

<dataDir>${solr.data.dir:}</dataDir> 是默认的配置,solr.data.dir:表示solrcore下。这里指定的是solrcore/data目录,如果需要配置就指定目录则在:后填写路径,一般我们不修改。

requestHandler标签

requestHandler请求处理器,定义了索引和搜索的访问方式,例如name="/update" class="solr.UpdateRequestHandler" 其实与servlet在web.xml中定义handlerMapping一样的。

多solrcore配置

配置多solrcore的好处。在进行集群时,必须配置多sorscore,每个sorscore之间是独立的,都可以单独的对外提供服务,不同的业务模块可以使用不同的sorscore来提供搜索和索引服务。

多solrcore就是将solrcore复制到solrhome下,并修改core.properties设置唯一的name。

Schema.xml

在solrcore下的conf目录有schema.xml文件,主要配置了solrcore的一些数据信息,包括Field和FieldType的定义等信息。在solr中,Field和FieldType都需要先定义后使用。

Field

Field在solr中代表的意义就像是数据表里的字段。

<Field name="??" type="?" indexed="??"  stored="??" required="??" multiValued="??" />

name:指定域名称

Type:指定域的类型(type需要定义,使用fieldType声明)

Indexed: 是否索引

Stored:是否存储

Required:是否必须

multiValued:是否多值(例如商品中的图片列表)

dynamicField 动态域

<dynamicField name="" type="" indexed="" stored="" />

name:指定动态域的命名规则,一般情况下name是匹配的例如:*_random,将匹配后缀为_random的field。

uniqueKey  指定唯一键

<uniqueKey>id</uniqueKey>

其中Field的name为id的域,必须设置required=true,在一个schema.xml文件中有且仅有一个唯一键。

copyField 复制域

就像管道一样,从source复制到dest里

<copyField source="" dest="" />

source: 要复制的源域的域名

dest:目标域的域名

dest所指定的目标域,必须设置multiValued="true"

FieldType  定义域类型

其中包含name,class,analyzer(分析器),tokenizer(分词器),Filter(指定过滤器)

由于lucene支持英文和德语,对于中文的拆分,我们需要使用第三方的jar包,ikanalyzer就是一个常用的中文分词器。可以对一段中文进行文字划分。(ikanalyzer后续介绍)

中文分词器ikanalyer配置

ref: https://github.com/wks/ik-analyzer

IKAnalyzer是一个开源的,基于Java卡发的轻量级中文分词工具包,从06年12月推出1.0版本开始,推出了3个大版本,最初它以Lucene为主体,集合词典分词和文法分析算法的中文分词组件。新版本IKAnalyzer3.0则采用了特有的"正向迭代最细粒度切分算法",具有83万字/秒的高速处理。

针对Lucene全文搜索优化的查询分析器IKqueryParser 是值得推荐的,它引入了简单搜索表达式,采用歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率。

IKAnalyzer作者林良益(linliangyi2007@gmail.com) 项目网站为http://code.google.com/p/ik-analyzer

maven工程的坐标为

groupId:org.wltea.ik-analyzer

artifactId:ik-analyzer

version:3.2.8

下载ikanalyer  个人选择的IK Analyzer 2012FF_hf1.zip解压后复制IkAanlyzer.cfg.xml,stopword.dic 到catalina_home/webapps\solr\WEB-INF\classes下。

复制IKAnalyzer2012FF_u1.jar到catalina_home\webapps\solr\WEB-INF\lib

配置FieldType ,修改对应的solrcore\conf 下的schema.xml

添加<fieldType name="text_ik" class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"></analyzer>

</fieldType>

在定义Field的时候就可以使用type="text_ik" 进行中文分词(假如定义了一个type="text_ik"的field名称为content_ik)。重启tomcat在solr的dashboard中,选择solrcore,展开Analysis ,选择Fieldname/FieldType 例如content_ik是type为text_ik的field。在Fileld Value(Index)里输入中文文字,然后再右侧点击Analyse Values就会返回输入的中文的分词结果。

DataImport 插件

在了解了solr相关的操作后,就开始应用了,这里还存在一个问题,数据库中的数据如何映射到solr中,solr提供了dataimport插件。在我们下载的资源包路径solr_4.10.3\dist下,拷贝solr-dataimporthandler-4.10.3.jar 到D:\develop\12-solr\contrib\dataimporthandler\lib 下(想想solrconfig.xml中的lib配置的路径),contrib没有dataimport需要我们手动建立。然后拷贝数据库(本地使用的mysql)的连接驱动包mysql-connector-java-5.*.jar 到contrib\db\lib下(没有文件夹就建立)。添加jar包后,需要让solrcore引用jar包,进入相关solrcore的conf目录,修改solrconfig.xml 添加<lib dir="??" regex=".*\.jar" />(这里不做说明,可参考其它的配置)

配置requestHandler

solrconfig.xml中,添加一个name="/dataimport"的requestHandler,可参考其它requestHandler

例如<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataimportHandler" >

<lst name="defaults"><str name="config">data-config.xml</str></lst>

</requestHandler>

上面的配置指定了dataimport的配置文件data-config.xml,位于solrconfig.xml同级目录下。

<?xml version="1.0" encoding="UTF-8" ?>

<dataConfig>

<dataSource type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/solr"

user="root"

password="root"/>

<document>

<entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products">

<field column="pid" name="id"/>

<field column="name" name="product_name"/>

<field column="catalog" name="product_catalog"/>

</entity>

</document>

</dataConfig>

重启tomcat访问solr的dashboard在相关的solrcore中点击Dataimport就可以查看到界面,

执行execute就可以将数据库的数据按照data-config.xml的配置导入到solr中。

推荐阅读更多精彩内容