最近在优化搜索服务,以前的搜索服务十分简单,现在需要增加查询结果分组统计的功能,以提高用户体验。
g了一番,有以下几个主要的实现方式:
1、利用search中的collect,自己实现一个collect输出分组统计结果;
2、一个开源的lucene插件bobo browser
3、lucnen3.2后有个grouping模块
最后我选择了grouping这个模块来实现
grouping模块有2种方法实现,2次遍历法和1次遍历法。1次遍历法是在lucene3.3之后才开始提供。
1次遍历法效率很高,但是需要在索引时添加特殊的标志:
To use the single-pass BlockGroupingCollector
, first, at indexing time, you must ensure all docs in each group are added as a block, and you have some way to find the last document of each group. One simple way to do this is to add a marker binary field:
网站访问量目前还很小,又不想重新建索引,于是还是采用了2次遍历法。2次遍历的第一次遍历是把分组拿出来,如果您只需要分组,不需要各个分组的数量,可以一次遍历即可。第二次遍历是把各个分组的搜索结果拿出来,当然也就能知道各个分组的数量。
2次遍历法由于需要经过2次搜索效率较低,因此引入了一个cache机制,CachingCollector。这样在第二次遍历是就可以直接读内存了。
代码片段如下:
public Map<String, Integer> groupBy(Query query, String field, int topCount) {
Map<String, Integer> map = new HashMap<String, Integer>();
long begin = System.currentTimeMillis();
int topNGroups = topCount;
int groupOffset = 0;
int maxDocsPerGroup = 100;
int withinGroupOffset = 0;
try {
TermFirstPassGroupingCollector c1 = new TermFirstPassGroupingCollector(field, Sort.RELEVANCE, topNGroups);
boolean cacheScores = true;
double maxCacheRAMMB = 4.0;
CachingCollector cachedCollector = CachingCollector.create(c1, cacheScores, maxCacheRAMMB);
indexSearcher.search(query, cachedCollector);
Collection<SearchGroup<String>> topGroups = c1.getTopGroups(groupOffset, true);
if (topGroups == null) {
return null;
}
TermSecondPassGroupingCollector c2 = new TermSecondPassGroupingCollector(field, topGroups, Sort.RELEVANCE, Sort.RELEVANCE, maxDocsPerGroup, true, true, true);
if (cachedCollector.isCached()) {
// Cache fit within maxCacheRAMMB, so we can replay it:
cachedCollector.replay(c2);
} else {
// Cache was too large; must re-execute query:
indexSearcher.search(query, c2);
}
TopGroups<String> tg = c2.getTopGroups(withinGroupOffset);
GroupDocs<String>[] gds = tg.groups;
for(GroupDocs<String> gd : gds) {
map.put(gd.groupValue, gd.totalHits);
}
} catch (IOException e) {
e.printStackTrace();
}
long end = System.currentTimeMillis();
System.out.println("group by time :" + (end - begin) + "ms");
return map;
}
几个参数说明:
-
groupField
: 分组域
-
groupSort
: 分组排序
-
topNGroups
: 最大分组数
-
groupOffset
: 分组分页用
-
withinGroupSort
: 组内结果排序
-
maxDocsPerGroup
: 每个分组的最多结果数
-
withinGroupOffset
: 组内分页用
分享到:
相关推荐
"Lucene group by" 指的就是在 Lucene 中实现基于特定字段的分组操作,类似于 SQL 中的 GROUP BY 子句。这使得用户能够按类别聚合文档,例如,根据作者、日期或其他分类标准来查看搜索结果。 在 Lucene 中,分组...
在"一步一步跟我学习lucene(12)---lucene搜索之分组处理group查询"中,我们将重点关注如何利用Lucene实现这一高级搜索功能。 首先,Lucene是一个开源全文搜索引擎库,它为Java开发者提供了构建高效、可扩展的搜索...
这一过程涉及对SQL语法的理解,包括条件语句(如WHERE子句)、连接操作(JOINs)以及排序和分组(ORDER BY和GROUP BY)。开发者需要对SQL的语法结构有深入理解,并且熟悉Lucene的查询模型,才能实现这种复杂的转换。...
3. **分组与排序**:GROUP BY、ORDER BY、HAVING子句的应用。 4. **连接操作**:INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN的理解与应用。 5. **子查询与联接的比较**:何时选择子查询,何时选择联接。 6. **...
- **分组**:利用`GROUP BY`对数据进行分组统计。 例如,以下查询将返回索引`sales`中按`product`分组的销售数量总和: ```java String esSqlQuery = "SELECT product, SUM(quantity) AS total_quantity FROM ...
"group_by_author" : { "terms" : { "field" : "author.keyword" } } } }' ``` 2. **数据分析**:利用 Elasticsearch 的分析功能对文本进行分析。例如,使用自定义分析器对文本进行分词处理: ```json PUT ...
4. **分组与排序**:使用`.groupBy()`进行分组,使用`.orderBy()`进行排序。 5. **子查询**:可以通过`.in()`或`.notIn()`方法使用子查询。 6. **连接查询**:支持`join()`, `leftJoin()`, `rightJoin()`, `outer...