抓取网页中的源代码.

zhou363667565

浏览: 1995841 次
性别:
来自: 深圳

最近访客更多访客>>

cyclonejava

冰~水

yang_50

hh_qq_love_hi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JavaEE

Java Apache C C++C#

首先在获取html页面的源代码之前..

要准备Apache里面的两个包:

htmllexer.jar

htmlparser.jar

有了这两个包方便,抓取网页中的源代码,抓取之后,生成一个txt文档..如果要获取里面的内容..就自己处理下就好了..

具体代码如下:

package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;   
import org.htmlparser.util.NodeList;
public class Test {   
    /**
     * 测试方法;
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception{   
        // TODO Auto-generated method stub 
        String url="http://www.baidu.com/";  
        //创建一个parser对象;
        Parser parser=new Parser(url);
        //设置字符编码格式;
        parser.setEncoding("gb2312");   
        NodeList list=parser.parse(null);   
        //输出;
        FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
        outputStream.write(list.toHtml().getBytes());
    }   
}

分享到：

JDBC连接数据库经验 | 常用SQL技巧汇总

2011-03-24 21:25
浏览 1295
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取网页中的源代码.

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取网页中的源代码.

评论

发表评论

相关推荐

解决Java服务器端插入数据到Mysql中乱码问题--简单几步轻松解决乱码问题

设计模式之-代理模式-Proxy

构建高并发、服务化、低耦合企业级脚骨：springmvc+mybatis+restfull+webservice+bootstrap html5

教您搭建大型互联网企业架构：springmvc+mybatis+restful+webservice+quartz+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restful+webservice+quartz+bootstrap html5

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

大型互联网服务集成平台:springmvc+mybatis+restfull+JMS+webservice+bootstrap

Maven构建大型互联网架构springmvc+mybatis+Restfull+Webservice+Bootstrap

maven构建高大上开源架构：springmvc+mybatis+rest+bootstrap html5

手机App后台架构:Springmvc+SpringSecurity+mybatis+Rest+Quartz+Bootstrap Html5( Maven构建)

maven构建springmvc+mybatis+rest+webservice+bootstrap html5(cms开源项目)

Java正则表达式

Cannot convert value of type [org.springframework.cache.ehcache.EhCacheCache

Collections工具类中的frequency方法统计单词出现的次数

Java 压缩Excel文件生成.zip文件

Java 解压缩zip文件

Jxl操作Excel设置背景、字体颜色、对齐方式、列的宽度

java获取字节的长度.

StringBuffer-reverse()字符反转功能

java 打开IE

最近访客更多访客>>