浏览 1343 次
锁定老帖子 主题:程序如何实现正文的核心提示,类似农联网一样
精华帖 (0) :: 良好帖 (0) :: 新手帖 (15) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2011-02-25
最后修改:2011-03-04
在思路之前,有一点必要说一下,因为会决定抽取出来的核心提示是否足够好. 如果是程序去采集一些网页,然后提取一下正文.有时候,提取正文不干净,也就是带有一些非属于正文的内容.此时,想抽取正文的核心提示,有可能提取出来的内容不能够表达出正文的意思. 前提说完,接下来,就是怎么去实现正文的核心提示的提取. 第一,获取标题,并对标题进行分词.(这里,我需要自己写得分词,下载地址: http://code.google.com/p/cwss/,可以使用其他分词) 第二,获取正文,按句子拆分,并对句子进行分词,存储到自定义类(Sentence). 这里,有可能模糊.举例说明: 正文--->>农联网(www.agrilink.cn)是一个综合性的农业网站.为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流. 按句子拆分成 1、农联网(www.agrilink.cn)是一个综合性的农业网站. 2、为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流. 两句. 第三,标题分词之后的词组和正文分词之后的词组进行匹配.找到给自定义类(Sentence)的属性加weight+1. 最后,权重越高,表示此句子越能描述出正文的意思. 例子: public static void main(String[] args) { String title = "标题"; String content = "正文"; coreTips tips = new coreTips(); long lo = System.currentTimeMillis(); String text = tips.returnCoreTip(title, content); System.out.println("text="+text); System.out.println(System.currentTimeMillis()-lo); } 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |