HtmlParser抓取正文时去掉其中的js

hunray

浏览: 222584 次
性别:
来自: 长沙

最近访客更多访客>>

brucelovejava

longlongkong

sunjiuzeng

z5616342

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

/*
	 * 获取纯文本信息
	 */
	public static String getPlainText(String str) {
		try {
			Parser parser = new Parser();
			parser.setInputHTML(str);
			
			StringBean sb = new StringBean();
			// 设置不需要得到页面所包含的链接信息
			sb.setLinks(false);
			// 设置将不间断空格由正规空格所替代
			sb.setReplaceNonBreakingSpaces(true);
			// 设置将一序列空格由一个单一空格所代替
			sb.setCollapse(true);
			parser.visitAllNodesWith(sb);
			str = sb.getStrings();
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return str;
	}

分享到：

一些字符串相关面试题的java实现 | 修改本机oracle用户超级密码

2011-06-15 14:15
浏览 2478
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HtmlParser抓取正文时去掉其中的js

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HtmlParser抓取正文时去掉其中的js

评论

发表评论

相关推荐

sqlserver2000,2005,2008兼容驱动包

java 本地缓存

字节流、字符串、16进制字符串转换

c写入memcache，java for memcache读取不到

通过百度地图API，将百度坐标转换成GPS经纬度

myeclipse6.5注册（备用）

【转】Struts2.0默认支持多种格式的result type

s:if标签获取action中对象属性

httpurlconnection发送文件到服务端并接收

struts2中action返回调用另外一个action

文件操作

一些字符串相关面试题的java实现

tomcat自动启动

Target runtime Apache Tomcat v6.0 is not defined错误

【转】同时启动多个tomcat需要修改的配置

struts2文件上传报404错误

读取src下的xml文件

URL传中文乱码

log4j指定输出源append、存入数据库并自定义参数

【转】log4j配置祥解

最近访客更多访客>>