锁定老帖子 主题:动态抓取网页,生成静态网页
精华帖 (0) :: 良好帖 (0) :: 新手帖 (8) :: 隐藏帖 (8)
|
|
---|---|
作者 | 正文 |
发表时间:2011-01-18
是一个IO的例子吗?
|
|
返回顶楼 | |
发表时间:2011-01-18
不错,很多大网站的静态页都可以这样生成。收了。
|
|
返回顶楼 | |
发表时间:2011-01-18
我也用过一次类似方法,是偷取一个动态页面上的部分内容。其实很简单的。
|
|
返回顶楼 | |
发表时间:2011-01-18
mengke 写道 好像只能抓到html代码,别的如:图片等不能抓下来吧
图片、视频等都可以抓取下来。 这是最最基本的一个爬虫程序,能够获取网页内容并下载. 楼主的程序有以下问题: 1)抓取这个动作,本身没有什么动态不动态的.可能楼主要表达的意思是,动态传入URL,然后可以抓取这个URL的内容. 而且生成静态页面似乎也不合理,你抓取下URL这个内容(都是二进制),没什么静态动态之说吧。 2)楼主这个程序去抓取下javaeye任何一个页面,可能获取到的是:您可能使用了网络爬虫抓取JavaEye网站页面! 3)楼主用byte[] bytes = new byte[1024 * 2000];去保存抓取的内容,近2M.放在内存里。正常情况下,一个页面的大小事8-250K的样子,这是个浪费。而且一旦你碰到视屏之类大于2M的URL,你这个程序估计得内存溢出. |
|
返回顶楼 | |
发表时间:2011-01-18
wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。
|
|
返回顶楼 | |
发表时间:2011-01-18
最后修改:2011-01-18
幽灵线程 写道 不错,很多大网站的静态页都可以这样生成。收了。
我觉得你是来搞笑的 |
|
返回顶楼 | |
发表时间:2011-01-18
程序有很多漏洞,,,建议这样的文章不该法。。
|
|
返回顶楼 | |
发表时间:2011-01-18
这种文章还上首页,javaeye已经没落到不行了
|
|
返回顶楼 | |
发表时间:2011-01-18
这篇文章被评为新手帖,没什么有价值的东西!
|
|
返回顶楼 | |
发表时间:2011-01-18
题目写错了,明明只能抓取静态内容
|
|
返回顶楼 | |