锁定老帖子 主题:java去除html代码
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (9)
|
|
---|---|
作者 | 正文 |
发表时间:2011-01-08
最后修改:2011-01-08
jericho-html.jar 里的au.id.jericho.lib.html.Source有个getTextExtractor方法很好用。以前做对采集下来的网页去掉无用部分只要纯文本时用过:
使用方法类似: String newstr = new Source(str).getTextExtractor(); |
|
返回顶楼 | |
发表时间:2011-02-23
<.*?>
|
|
返回顶楼 | |
发表时间:2011-02-25
JE上MM不少啊。:)
|
|
返回顶楼 | |