www.cftea.com

盘古 + Lucene 实现 .NET 分词 + 全文检索-Stopword、字典配置

ITPOW2019/11/6 16:00:53

Stopword

默认情况下:“的”、“了”、“有”、“无”……这些高频词都会被当作词来检索、高亮,如何避免呢?

在 Dictionaries 中打开 Stopword.txt,将这些词追加进行,一行一个。

这里可以追加标点符号、字、词,多个字的词也是可以的,比如:好了。

追加之后,保存,不需要做其他操作,会即时生效(只是首次加载会慢一点)。

字典配置

使用 DictManage.exe 打开 Dictionaries 中的 Dict.dct 来维护分词。

下载盘古分词工具

要说明两点:

  • 一是修改了分词,要保存。
  • 二是要重新用 IndexWriter 写入索引。
<<返回首页<<