论坛首页 → Java企业应用论坛 →

如何在动态搜索得到大量的博客记录后，再针对它们各自的Tag进行数量统计？

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

« 上一页 1 2 下一页 »

浏览 6857 次

锁定老帖子主题：如何在动态搜索得到大量的博客记录后，再针对它们各自的Tag进行数量统计？精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
YuLimin 等级: 性别: 文章: 506 积分: 2350 来自: 福建莆田@广州	发表时间：2007-12-28 相关推荐: 如何在动态搜索得到大量的博客记录后，再针对它们各自的Tag进行数量统计？... mysql索引设计的注意事项(大量示例,收藏再看) 《这是全网最硬核redis总结，谁赞成，谁反对？》六万字大合集传智博客(JavaWeb方面的所有知识)听课记录(经典) 深度解读！新一代大数据引擎Flink厉害在哪？（附实现原理细节）更多相关推荐企业应用场景：一个博客网站，有N多的博客信息，这些信息都会被标上不同的Tag 我输入搜索某个关键字来查找我需要的博客为M条，在这个M条里各条的Tag又是不一样的。这样在搜索结果中需要统计出每一个Tag的数量出来进行显示比如：根据xxx关键字后搜索到的结果为以下3条，假如：Tag以空格隔离存储，split后为独立的Tag 1:Seam框架使用开发指南对应的Tag为:Java Seam Framwork 开发 2:Spring框架最佳实践对应的Tag为:Java Spring 最佳实践 3:Hibernate技术点对点对应的Tag为:Java Hibernate 点对点于是显示的结果为 Tag: Java(3)、Seam(1)、Framework(1)、开发(1)、Spring(1)、最佳实践(1)、Hibernate(1)、点对点(1) 结果: 1:Seam框架使用开发指南 2:Spring框架最佳实践 3:Hibernate技术点对点如果说在查询到数量不多的情况下，遍历所有的记录后，把Tag进行split后统计加和就OK了。但是如果大量的情况下，就会出现性能问题了。各位有何高招？声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2007-12-28 我觉得可以用全文检索来解决，在做索引的时候把博客的tag这个field的term_vector保存下来。搜索的时候，可以从全文检索里面获取某个tag在整个全文索引里面出现的次数，已经在哪些document里面出现过。
返回顶楼	回帖地址 0 0 请登录后投票

sorphi 等级: 性别: 文章: 352 积分: 765 来自: 北京	发表时间：2007-12-28 tag使用频率，应该周期性的生成统计结果存储。
返回顶楼	回帖地址 0 0 请登录后投票

抛出异常的爱等级: 性别: 文章: 13663 积分: 2762 来自: 北京	发表时间：2007-12-28 放一个count字段让rails去维护
返回顶楼	回帖地址 0 0 请登录后投票

ddandyy 等级: 初级会员性别: 文章: 6556 积分: 0 来自: 目前上海	发表时间：2007-12-28 这个应该用sql就能做出来吧表嵌套就是不知道大数据量的性能会怎么样
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2007-12-28 其实这里关键的难点在于你不知道搜索结果中的Tag有多少，如果你想知道，那等于要遍历所有Document来统计Tag。如果Tag相对每次搜索固定，那lucene就能很好的解决啦，用一个Filter来做统计。代码就像下面这种 Filter filter = new Filter(userQuery); Hits allHits = searcher.search(userQuery); Hits tag1Hits = searcher.search(tag1Query,filter); ...... 这个速度那是很快的啦。 robbin说的TermVector不是那个意思吧，应该是Term在原文中的位置
返回顶楼	回帖地址 0 0 请登录后投票

grantbb 等级: 性别: 文章: 73 积分: 175 来自: 上海	发表时间：2008-01-07 楼上说的filter方案也解决不了问题，因为每次查询结果相关的tag是变化的。之前我也做过类似的应用，也是因为性能的问题终止了。
返回顶楼	回帖地址 0 0 请登录后投票

roki 等级: 初级会员性别: 文章: 25 积分: 10 来自: 上海	发表时间：2008-01-10 第一种方法，上层一些，比较简单，但是效率差些第一步：在做索引的时候就计算好Tag个数，添加一个字段tagCount，保存为Indexed和Stored属性第二步：如果用的是Nutch的前端，则直接有参数支持按照tagCount排序，如果是自己写的前段，则自己把返回结果按照tagCount排序就行了第二种方法，依然还是需要在做索引的时候就计算好Tag个数，添加一个字段tagCount，但是把排序在 HitCollector接口实现里做掉，效率比第一种高不少，但是写起来麻烦些。
返回顶楼	回帖地址 0 0 请登录后投票

grantbb 等级: 性别: 文章: 73 积分: 175 来自: 上海	发表时间：2008-01-11 楼上还没有理解，这个问题难就难在，需要统计当前查询相关结果中出现的tag及出现的次数。
返回顶楼	回帖地址 0 0 请登录后投票

galaxystar 等级: 性别: 文章: 630 积分: 2483 来自: 杭州	发表时间：2008-01-13 赞同robbin的方案，这类应用一般都是需要承受非常大的访问量，在查询列表时（非detail），走搜索引擎是最完美的。增量build索引（根据修改时间）可以解决，blog数据更新的问题。例子：商务网站 http://list.taobao.com/browse/search_auction.htm?cat=1101。每个属性都是商品的一个标签。
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 下一页 »

论坛首页 → Java企业应用版

跳转论坛:

Global site tag (gtag.js) - Google Analytics