关于javaeye2.5的相关文章功能

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 2806 次

锁定老帖子主题：关于javaeye2.5的相关文章功能精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
sunli_qun 等级: 初级会员性别: 文章: 56 积分: 97 来自: 上海	发表时间：2008-01-14 相关推荐: 请大家测试JavaEye2.5版本，元旦上线新版本作为新年的第一份贺礼，JavaEye2.5元旦上线使用spring2.5注释驱动的IOC功能 Spring 2.5 注解知识点 JavaEye论坛热点推荐－2009年3月更多相关推荐设计模式正好我们最近也在做相同的功能，这里说一下我们的算法，希望在不影响javaeye保密政策的情况下能够得到robbin大哥或者那位javaeye仁兄的指点。首先我们自己维护一个行业相关的关键词库对每一篇文章，我们会把这篇文章和我们的关键词库进行匹配，得到的将是：哪些关键词出现过，出现过多少次。每篇文章都有了这样的信息，那么在给定一篇文章的情况下，就可以根据关键词的出现和频率，计算出文章的相关联性了。这就是我们现在能想到的方法，和lucene道理一致，有一点区别就是不能用lucene默认的分词方法或者一些通用得分词库，必须要用行业相关的，相对关键词比较少的词库，这样的到的相关性才会好！声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

robbin 等级: 资深会员性别: 文章: 6203 积分: 3125 来自: 上海	发表时间：2008-01-14 可以用TF/IDF算法，我们就是用这种算法： http://www.googlechinablog.com/2006/06/blog-post_27.html 这是Google关于TF/IDF算法的介绍
返回顶楼	回帖地址 0 0 请登录后投票

QuakeWang 等级: 性别: 文章: 854 积分: 2516 来自: 上海	发表时间：2008-01-14 算法robbin有说明过： http://www.iteye.com/post/440835 如果你们用lucene的话，它有自带的api, MoreLikeThis: http://lucene.apache.org/java/1_9_1/api/org/apache/lucene/search/similar/MoreLikeThis.html 就是基于这个算法实现的，对于你说的行业相关问题，自己写一个分析器配合专业词库进行拆分即可。
返回顶楼	回帖地址 0 0 请登录后投票

sunli_qun 等级: 初级会员性别: 文章: 56 积分: 97 来自: 上海	发表时间：2008-01-14 清楚了，从一个文章里面提取出几个用于查询的关键字，一般都能提取出好多，如何选择几个作为查询相关文章的条件呢？原来ＴＦ*ＩＤＦ就可以了，长见识了。不过也验证了我们现在的做法也有一定的正确性，因为相关关键词库里面的词的idf都是极高的！收获最大的是这篇文章给出了权重的算法： IDF = ｌｏｇ（Ｄ／Ｄｗ）其中Ｄ是全部网页数这个不错！值得借鉴！
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: