1) 配置
==========================schema.xml START=================================================
<fieldType name="textMaxWord" class="solr.TextField" >^M
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>^M
<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
<filter class="solr.StandardFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>^M
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
<filter class="solr.StandardFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
……
<field name="title" type="textMaxWord" indexed="true" stored="true" termVectors="true"/>
……
==========================schema.xml END=================================================
==========================conf/synonyms.txt START=================================================
# Some synonym groups specific to this example
GB,gib,gigabyte,gigabytes
MB,mib,megabyte,megabytes
Television, Televisions, TV, TVs
中国,美国,德国,法国
==========================conf/synonyms.txt END=================================================
2)使用
搜索title:中国 结果包括美国、中国的结果都会出现
引自:http://hi.baidu.com/liwei_8/blog/item/6e0197dfd376700a63279886.html
相关推荐
Solr 5.3.1搜索引擎搭建详细教程(包括集成mysql、添加中文分词、添加同义词、查询语法等)
Solr 同义词词形还原从的定义转储构建以进行词形还原的项目。 该项目的动机是由于过度或不积极的词干导致的持续搜索失败。
能够使用外部的基于文件的终止词列表,同义词列表和保护词列表的配置 1.2.3 查询 拥有可配置响应格式(XML/XSLT,JSON,Python,Ruby)的 HTTP 接口 高亮的上下文搜索结果 基于域值和显式查询的片段式搜索...
然后可以使用同义词文件结合一些 solr 插件将这个过程的输出嵌入到 solr(或一些其他搜索引擎)中,以在搜索引擎中提供概念搜索功能。输出也可以在其他搜索引擎中使用,只要它们支持同义词文件。概念搜索也称为语义...
功能实现 中文分词 模糊搜索 同义词搜索 定时全量索引 实时增量索引 权重排序 范围搜索 推荐算法
该项目提供了可在Elasticsearch Analyzer中使用的同义词文件。在Elasticsearch中索引表情符号的要求版要求Elasticsearch> = 6.7 标准标记器现在可以理解表情符号 :party_popper: 感谢无需插件! Elasticsearch> = ...
本项目依托于 Hadoop 大数据环境(包括 HDFS、HBase、Phoenix、Spark、Kafka、Zookeeper、Yarn),借助 Solr 框架集成 jieba 分词作为搜索引擎,实现通过同义词进行构件检索。利用 Spark ML 编写基于物品的协同过滤...
特征索引和搜索产品分面搜索(分层导航) 索引 CMS 页面(搜索即将推出) 通过“目录”->“搜索词”管理模块处理同义词详细记录自动化 Solr 安装脚本安装使用安装模块: modman clone git@github....
本项目依托于 Hadoop 大数据环境(包括 HDFS、HBase、Phoenix、Spark、Kafka、Zookeeper、Yarn),借助 Solr 框架集成 jieba 分词作为搜索引擎,实现通过同义词进行构件检索。利用 Spark ML 编写基于物品的协同过滤...
图书馆搜索应用程序的一个常见需求是支持规范记录中的同义词。 (请求“作者:布莱尔,埃里克”也应该找到更广为人知的笔名“乔治·奥威尔”) 在传统的基于 SQL 数据库的 OPAC 中,这可以通过连接来解决。 现代书目...
ES是一个基于Lucene的分布式全文搜索服务器,和SQL Server的全文索引(Fulltext Index)有点类似,都是基于分词和分段的全文搜索引擎,具有分词,同义词,词干查询的功能,但是ES天生具有分布式和实时的属性,本随笔...
##新闻搜索引擎我们从头开始构建了一个完整的信息检索系统,其中包括解析原始数据、将数据过滤到不同类别、创建... 我们已经使用向量空间模型来计算相关性分数,并且正在研究潜在语义索引来处理同义词和反义词的问题。