java抓网站html

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 8357 次

锁定老帖子主题：java抓网站html 精华帖 (0) :: 良好帖 (0) :: 新手帖 (13) :: 隐藏帖 (1)
作者	正文
Sharpleo 等级: 性别: 文章: 45 积分: 350 来自: newsk	发表时间：2011-11-09 最后修改：2011-11-09 相关推荐: java源码包---java 源码大量实例 Java抓包分析三（基于jnetpcap进行抓包）——抓取Http请求数据包 java html文件转换pdf文件_Java实现HTML转换为PDF的常见方法 java爬虫之获取HTML元素 java实现http/https抓包拦截更多相关推荐 Java综合今天无聊写啦个抓取html源代码的Demo，别小看他短短的几行代码，只要写一个解析器类，解析其中的内容，你就可以得到你想要的内容啦。不过这个解析器不能通用，只要url一变就没用啦。很多网络爬虫就是建立在这个之上。之前我做啦一个用 Mssql+lucene+这种方式的抓内容。的搜索引擎。本来可以用网络爬虫的，我没用，不过都一样的，都要写解析器。还不如自己写。大家展开自己的想像吧，呵呵。解析器代码我就不放啦，再说这个针对一个url就要写一个解析器。 import java.io.DataInputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; //用url获取网上的资源html文件 (html源代码) public class GetHtmlByUrl { public void getHtmlbyurl() { try { URL url = new URL("http://www.iteye.com"); DataInputStream di = new DataInputStream(url.openStream()); byte [] bytes = new byte[1024]; while (di.read(bytes, 0, 1024)!=-1) { System.out.println(new String(bytes,"utf-8")); } di.close(); } catch (MalformedURLException e) { // e.printStackTrace(); } catch (IOException e) { // e.printStackTrace(); } } public static void gethtmlbyurlcon() { try { URL url = new URL("http://www.csdn.net"); URLConnection urlcon = url.openConnection(); DataInputStream di = new DataInputStream(url.openStream()); byte [] bytes = new byte[1024]; while (di.read(bytes, 0, 1024)!=-1) { System.out.println(new String(bytes,"utf-8")); } di.close(); } catch (MalformedURLException e) { // e.printStackTrace(); } catch (IOException e) { // e.printStackTrace(); } } public static void main(String[] args) { GetHtmlByUrl.gethtmlbyurlcon(); } } 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

luciferdevil 等级: 初级会员性别: 文章: 74 积分: 20 来自: 北京	发表时间：2011-11-09 。。。。。。。。。。我不知道该说什么
返回顶楼	回帖地址 0 0 请登录后投票

Sharpleo 等级: 性别: 文章: 45 积分: 350 来自: newsk	发表时间：2011-11-09 呵呵，朋友，想说什么呢。
返回顶楼	回帖地址 0 0 请登录后投票

ximenpiaohua 等级: 初级会员文章: 40 积分: 10 来自: ...	发表时间：2011-11-10 有点吐血的感觉
返回顶楼	回帖地址 0 0 请登录后投票

Technoboy 等级: 初级会员性别: 文章: 115 积分: 60 来自: 大连	发表时间：2011-11-10 ximenpiaohua 写道有点吐血的感觉呵呵。真正抓网页，是分析网页中的有用数据，类似股票数据。其大体的策略为，先抓取到整个网页数据(可以使用httpclient)，然后补全不完整的tag(可以使用htmlcleaner)，最后解析提取或将其转化为xml再提取。
返回顶楼	回帖地址 0 0 请登录后投票

vincent_com 等级: 初级会员性别: 文章: 82 积分: 40 来自: 上海	发表时间：2011-11-10 兄弟，这个。。。。。。。。
返回顶楼	回帖地址 0 0 请登录后投票

hu437 等级: 初级会员性别: 文章: 87 积分: 10 来自: 昆明	发表时间：2011-11-10 Technoboy 写道 ximenpiaohua 写道有点吐血的感觉呵呵。真正抓网页，是分析网页中的有用数据，类似股票数据。其大体的策略为，先抓取到整个网页数据(可以使用httpclient)，然后补全不完整的tag(可以使用htmlcleaner)，最后解析提取或将其转化为xml再提取。可以使用jsoup，这个类库还是很强大的
返回顶楼	回帖地址 0 0 请登录后投票

senton 等级: 性别: 文章: 64 积分: 120 来自: 紫禁城	发表时间：2011-11-10 最后修改：2011-11-10 这都能上首页，太牛逼了！
返回顶楼	回帖地址 0 0 请登录后投票

ansjsun 等级: 初级会员性别: 文章: 356 积分: 90 来自: 北京	发表时间：2011-11-10 html 抽取 http://ansjsun.iteye.com/blog/1150903 是这个..还有... 楼主啊..这是典型的新手帖啊
返回顶楼	回帖地址 0 0 请登录后投票

ZZX19880809 等级: 初级会员性别: 文章: 126 积分: 0 来自: 杭州	发表时间：2011-11-10 这也能上首页，我勒个去
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: