锁定老帖子 主题:java去除html代码
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (9)
|
|
---|---|
作者 | 正文 |
发表时间:2011-01-06
public static void main(String[] args) { // TODO Auto-generated method stub String content="<p>郎酒15年陈红花郎酒53°500ML,</br>楼兰蛇龙珠戈壁干红(铁盒)750ML,组合价699元。</p>"; String regxpForHtml = "<([^>]*)>|</([^>]*)>"; System.out.println(content.replaceAll(regxpForHtml, "")); 这个不是更简单 |
|
返回顶楼 | |
发表时间:2011-01-06
我给个正则替换成空格就行了
html.replaceAll("<[^<>]*?>","") |
|
返回顶楼 | |
发表时间:2011-01-06
python是这样
re_h=re.compile('</?\w+[^>]*>') page=re_h.sub('',page) 不知道这个正则在java下会怎么样 |
|
返回顶楼 | |
发表时间:2011-01-06
我最近在用jsoup,确时是个好东西,可惜结合scala有问题,编译时报循环引用的错误,大概是scala编译器的bug。退到jsoup1.2.2就好了,缺少的功能只好用implicit conversion手工补了。
|
|
返回顶楼 | |
发表时间:2011-01-07
String.replaceAll("<([^>]*)>","")
这个简单点 |
|
返回顶楼 | |
发表时间:2011-01-07
wxq136 写道 public static void main(String[] args) { // TODO Auto-generated method stub String content="<p>郎酒15年陈红花郎酒53°500ML,</br>楼兰蛇龙珠戈壁干红(铁盒)750ML,组合价699元。</p>"; String regxpForHtml = "<([^>]*)>|</([^>]*)>"; System.out.println(content.replaceAll(regxpForHtml, "")); 这个不是更简单 ![]() |
|
返回顶楼 | |
发表时间:2011-01-07
很多情况还是要考虑的,百度下有很多
|
|
返回顶楼 | |
发表时间:2011-01-07
最后修改:2011-01-07
<([^>]*)>|</([^>]*)>
显然是不行的。 如果我有以下代码 <html> <head> <script> var a=0; //这是注释 for(var x=0;x<10 && x>5;x++){ //donothing } </script> </head> <body></body> </html> 按你们的方式应该输出这样的内容吧? var a=0; //这是注释 for(var x=0;x5;x++){ //donothing } |
|
返回顶楼 | |
发表时间:2011-01-07
|
|
返回顶楼 | |
发表时间:2011-01-07
mfkvfn 写道 <([^>]*)>|</([^>]*)>
显然是不行的。 如果我有以下代码 <html> <head> <script> var a=0; //这是注释 for(var x=0;x<10 && x>5;x++){ //donothing } </script> </head> <body></body> </html> 按你们的方式应该输出这样的内容吧? var a=0; //这是注释 for(var x=0;x5;x++){ //donothing } 这么说的话。。。如果html里面有代码 System.out.println("<div>this is NOT HTML code!</div>"); 那没有一个正则表达式能正确解析 可实际上并不是这样,因为"<"的html代码是<">"的html代码是> |
|
返回顶楼 | |