论坛首页 入门技术论坛

动态抓取网页,生成静态网页

浏览 9883 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (8) :: 隐藏帖 (8)
作者 正文
   发表时间:2011-01-18  
是一个IO的例子吗?
0 请登录后投票
   发表时间:2011-01-18  
不错,很多大网站的静态页都可以这样生成。收了。
0 请登录后投票
   发表时间:2011-01-18  
我也用过一次类似方法,是偷取一个动态页面上的部分内容。其实很简单的。
0 请登录后投票
   发表时间:2011-01-18  
mengke 写道
好像只能抓到html代码,别的如:图片等不能抓下来吧


图片、视频等都可以抓取下来。
这是最最基本的一个爬虫程序,能够获取网页内容并下载.
楼主的程序有以下问题:
1)抓取这个动作,本身没有什么动态不动态的.可能楼主要表达的意思是,动态传入URL,然后可以抓取这个URL的内容.
  而且生成静态页面似乎也不合理,你抓取下URL这个内容(都是二进制),没什么静态动态之说吧。
2)楼主这个程序去抓取下javaeye任何一个页面,可能获取到的是:您可能使用了网络爬虫抓取JavaEye网站页面!
3)楼主用byte[] bytes = new byte[1024 * 2000];去保存抓取的内容,近2M.放在内存里。正常情况下,一个页面的大小事8-250K的样子,这是个浪费。而且一旦你碰到视屏之类大于2M的URL,你这个程序估计得内存溢出.




0 请登录后投票
   发表时间:2011-01-18  
wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。
0 请登录后投票
   发表时间:2011-01-18   最后修改:2011-01-18
幽灵线程 写道
不错,很多大网站的静态页都可以这样生成。收了。


我觉得你是来搞笑的
0 请登录后投票
   发表时间:2011-01-18  
程序有很多漏洞,,,建议这样的文章不该法。。
0 请登录后投票
   发表时间:2011-01-18  
这种文章还上首页,javaeye已经没落到不行了
0 请登录后投票
   发表时间:2011-01-18  
这篇文章被评为新手帖,没什么有价值的东西!
0 请登录后投票
   发表时间:2011-01-18  
题目写错了,明明只能抓取静态内容
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics