论坛首页 Java企业应用论坛

java去除html代码

浏览 11064 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (9)
作者 正文
   发表时间:2011-01-08   最后修改:2011-01-08
jericho-html.jar 里的au.id.jericho.lib.html.Source有个getTextExtractor方法很好用。以前做对采集下来的网页去掉无用部分只要纯文本时用过:
使用方法类似:
String newstr = new Source(str).getTextExtractor();
0 请登录后投票
   发表时间:2011-02-23  
<.*?>
0 请登录后投票
   发表时间:2011-02-25  
JE上MM不少啊。:)
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics