最新文章列表

3、正则表达式

一、正则表达式   正则表达式:符合一定规则的表达式 作用:用于专门操作字符串 特点:用于一些特定的符号来表示一些代码操作。这样就简化书写 好处:可以简化对字符串的复杂操作 弊端:符号定义越多,正则越长,阅读性越差 二、具体操作:匹配       String 的 matches 方法。用规则匹配整个字符串,只要有一处不符合规则,就匹配结束,返回false   字符类 ...
豆豆咖啡 评论(0) 有964人浏览 2013-03-19 19:29

利用HtmlParser来提取网页内容

 本文参考:李腾飞CSM实战   使用正则表达式来分析网页的内容比较麻烦,因为html标签不区分大小写,而且有的时候没有结尾。 HtmlParser也有下载网页的功能,不过他不是专门用来做这个,所以我们这边不用他的这个功能。   具体内容请看下面代码及注释:   public class PageParserTest extends TestCase { private Str ...
whoosh 评论(1) 有7509人浏览 2012-09-22 16:59

几种网页爬取的方法与实现(Java)

一、通过HttpClient(apache commons-httpclient)方式,获许网页内容,并解析出需要的东西。 这种方法相对比较简单,因为commons-httpclient已经做了很好的封装,简单的代码如下:   // 构造HttpClient的实例   HttpClient httpClient = new HttpClient();   HttpClientParams cl ...
jinshunlong 评论(0) 有3237人浏览 2011-07-25 11:24

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics