论坛首页 Java企业应用论坛

程序如何实现正文的核心提示,类似农联网一样

浏览 1341 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (15) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-02-25   最后修改:2011-03-04
说一下,我的大概思路.
在思路之前,有一点必要说一下,因为会决定抽取出来的核心提示是否足够好.
如果是程序去采集一些网页,然后提取一下正文.有时候,提取正文不干净,也就是带有一些非属于正文的内容.此时,想抽取正文的核心提示,有可能提取出来的内容不能够表达出正文的意思.
前提说完,接下来,就是怎么去实现正文的核心提示的提取.
第一,获取标题,并对标题进行分词.(这里,我需要自己写得分词,下载地址: http://code.google.com/p/cwss/,可以使用其他分词)
第二,获取正文,按句子拆分,并对句子进行分词,存储到自定义类(Sentence).
这里,有可能模糊.举例说明:
正文--->>农联网(www.agrilink.cn)是一个综合性的农业网站.为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流.
按句子拆分成
1、农联网(www.agrilink.cn)是一个综合性的农业网站.
2、为农民,技术人员,农业管理人员及农产品贸易人员提供国内农业资讯、国内农业需求、国内农业供应、农业技术、农业物资、国内农业行情、国内农业价格走势、世界农业、农产品出口、农产品进口、国际农业行情、国际农业价格走势、搜索引擎服务,开设农业社区为用户进行互动交流.

两句.
第三,标题分词之后的词组和正文分词之后的词组进行匹配.找到给自定义类(Sentence)的属性加weight+1.
最后,权重越高,表示此句子越能描述出正文的意思.
例子:
public static void main(String[] args) {
String title = "标题";
String content = "正文";
coreTips tips = new coreTips();
long lo = System.currentTimeMillis();
String text = tips.returnCoreTip(title, content);
System.out.println("text="+text);
System.out.println(System.currentTimeMillis()-lo);
}
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics