论坛首页 Java企业应用论坛

java去除html代码

浏览 11091 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (9)
作者 正文
   发表时间:2011-01-06  
	public static void main(String[] args) {
			// TODO Auto-generated method stub
	        String content="<p>郎酒15年陈红花郎酒53°500ML,</br>楼兰蛇龙珠戈壁干红(铁盒)750ML,组合价699元。</p>";
	        String regxpForHtml = "<([^>]*)>|</([^>]*)>";
	    	System.out.println(content.replaceAll(regxpForHtml, ""));

这个不是更简单
0 请登录后投票
   发表时间:2011-01-06  
我给个正则替换成空格就行了

html.replaceAll("<[^<>]*?>","")
0 请登录后投票
   发表时间:2011-01-06  
python是这样
re_h=re.compile('</?\w+[^>]*>')
page=re_h.sub('',page)

不知道这个正则在java下会怎么样
0 请登录后投票
   发表时间:2011-01-06  
我最近在用jsoup,确时是个好东西,可惜结合scala有问题,编译时报循环引用的错误,大概是scala编译器的bug。退到jsoup1.2.2就好了,缺少的功能只好用implicit conversion手工补了。
0 请登录后投票
   发表时间:2011-01-07  
String.replaceAll("<([^>]*)>","")
这个简单点
0 请登录后投票
   发表时间:2011-01-07  
wxq136 写道
	public static void main(String[] args) {
			// TODO Auto-generated method stub
	        String content="<p>郎酒15年陈红花郎酒53°500ML,</br>楼兰蛇龙珠戈壁干红(铁盒)750ML,组合价699元。</p>";
	        String regxpForHtml = "<([^>]*)>|</([^>]*)>";
	    	System.out.println(content.replaceAll(regxpForHtml, ""));

这个不是更简单

正解


0 请登录后投票
   发表时间:2011-01-07  
很多情况还是要考虑的,百度下有很多
0 请登录后投票
   发表时间:2011-01-07   最后修改:2011-01-07
<([^>]*)>|</([^>]*)>

显然是不行的。
如果我有以下代码
<html>
<head>
<script>

var a=0;
//这是注释
for(var x=0;x<10 && x>5;x++){
//donothing
}
</script>
</head>
<body></body>
</html>


按你们的方式应该输出这样的内容吧?
var a=0;
//这是注释
for(var x=0;x5;x++){
//donothing
}
0 请登录后投票
   发表时间:2011-01-07  
east_java 写道
使用jsoup,一行代码
http://www.java1995.cn/group/topic/111

支持,这才是聪明人的做法。jsoup在这个领域基本是最好用的
0 请登录后投票
   发表时间:2011-01-07  
mfkvfn 写道
<([^>]*)>|</([^>]*)>

显然是不行的。
如果我有以下代码
<html>
<head>
<script>

var a=0;
//这是注释
for(var x=0;x<10 && x>5;x++){
//donothing
}
</script>
</head>
<body></body>
</html>


按你们的方式应该输出这样的内容吧?
var a=0;
//这是注释
for(var x=0;x5;x++){
//donothing
}


这么说的话。。。如果html里面有代码
    System.out.println("<div>this is NOT HTML code!</div>");
那没有一个正则表达式能正确解析
可实际上并不是这样,因为"<"的html代码是&lt;">"的html代码是&gt;
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics