动态抓取网页，生成静态网页

浏览 9883 次

锁定老帖子主题：动态抓取网页，生成静态网页精华帖 (0) :: 良好帖 (0) :: 新手帖 (8) :: 隐藏帖 (8)
作者	正文
bulktree 等级: 初级会员性别: 文章: 119 积分: 10 来自: 北京	发表时间：2011-01-18 是一个IO的例子吗？
返回顶楼	回帖地址 0 0 请登录后投票

幽灵线程等级: 初级会员性别: 文章: 16 积分: 40 来自: 北京	发表时间：2011-01-18 不错，很多大网站的静态页都可以这样生成。收了。
返回顶楼	回帖地址 0 0 请登录后投票

jiangjiubo 等级: 初级会员性别: 文章: 13 积分: 30 来自: 北京	发表时间：2011-01-18 我也用过一次类似方法，是偷取一个动态页面上的部分内容。其实很简单的。
返回顶楼	回帖地址 0 0 请登录后投票

guoyunsky 等级: 性别: 文章: 43 积分: 210 来自: 上海	发表时间：2011-01-18 mengke 写道好像只能抓到html代码，别的如：图片等不能抓下来吧图片、视频等都可以抓取下来。这是最最基本的一个爬虫程序,能够获取网页内容并下载. 楼主的程序有以下问题: 1)抓取这个动作,本身没有什么动态不动态的.可能楼主要表达的意思是,动态传入URL,然后可以抓取这个URL的内容. 而且生成静态页面似乎也不合理,你抓取下URL这个内容(都是二进制),没什么静态动态之说吧。 2)楼主这个程序去抓取下javaeye任何一个页面,可能获取到的是:您可能使用了网络爬虫抓取JavaEye网站页面！ 3)楼主用byte[] bytes = new byte[1024 * 2000];去保存抓取的内容,近2M.放在内存里。正常情况下，一个页面的大小事8-250K的样子,这是个浪费。而且一旦你碰到视屏之类大于2M的URL,你这个程序估计得内存溢出.
返回顶楼	回帖地址 0 0 请登录后投票

wanghua1985 等级: 初级会员性别: 文章: 1 积分: 30 来自: 上海	发表时间：2011-01-18 wget是一个从网络上自动下载文件的自由工具，支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载，并可以使用HTTP代理。
返回顶楼	回帖地址 0 0 请登录后投票

ak121077313 等级: 初级会员性别: 文章: 146 积分: 80 来自: 深圳	发表时间：2011-01-18 最后修改：2011-01-18 幽灵线程写道不错，很多大网站的静态页都可以这样生成。收了。我觉得你是来搞笑的
返回顶楼	回帖地址 0 0 请登录后投票

gbfd2012 等级: 初级会员性别: 文章: 24 积分: 30 来自: 天津	发表时间：2011-01-18 程序有很多漏洞，，，建议这样的文章不该法。。
返回顶楼	回帖地址 0 0 请登录后投票

hackang 等级: 文章: 38 积分: 109	发表时间：2011-01-18 这种文章还上首页，javaeye已经没落到不行了
返回顶楼	回帖地址 0 0 请登录后投票

181054867 等级: 初级会员性别: 文章: 95 积分: 70 来自: 广州	发表时间：2011-01-18 这篇文章被评为新手帖，没什么有价值的东西！
返回顶楼	回帖地址 0 0 请登录后投票

tengjavaee 等级: 初级会员性别: 文章: 2 积分: 30 来自: 北京	发表时间：2011-01-18 题目写错了，明明只能抓取静态内容
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 入门技术版

跳转论坛: