为我们的爬虫程序写了个adapter。可是发现adapter存下来的东西比测试脚本dump的文件要少,甚至少了好几G。
之前的测试上看来,不应该有这样的问题。
看了日志,发现后来由于加了断点续传,好多URL只down下来一部分。由于adapter只会将完全download下来的文件存下来。那些断点续传的部分结果,会被dump出来,但是不会被adapter存储。
为了证明这一点,我需要在茫茫日志中搜索了。
先肯定是grep了。
grep " Try to resume a url" honey_crawler.log > resume |cat resume
打印出来
2011-04-20 08:39:52,656 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:135584, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://allqq.dnion.com/dl.sj.91.com/reader/android/91pandareader_for_android_v1.93.apk
2011-04-20 08:39:53,025 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:660615, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://s200.cdcidc.com:80/apps/2011/03/08/4d75dd35009d9_gan_ji_sheng_huo__1.1.2.apk
可是我只想得到url,怎么办
cat resume |awk -F'url:' '{print $2}'
这下干净了很多
http://apka.mumayi.com:80/22738/quanguoyingxun_V1.0.8_mumayi_d3e6a.apk
http://apka.mumayi.com:80/5401/ThinkFree_Office_for_Android_V1.2.1112.0_mumayi_11b35.apk
http://apk.mumayi.com:80/22114/chaojizhayaobuyuSuper_Dynamite_Fishing_FREE_V1.0.3_mumayi_4b4be.apk
http://haorj123.cn:80/download/upload/2010/10/23/13484678.sis
http://apka.mumayi.com:80/15466/fennudexiaoniao_Angry_Birds_qingrenjieban_V1.2.0_mumayi_8939a.apk
http://vgoto.cn:80/djyx/NetQin_P200638_CM_S60OS90_v4.0.sisx
http://static.nduoa.com:80/apk/11/11752/com.kb.Carrom3DFull.apk
http://apka.mumayi.com:80/22719/chengshitiaoyue_DroidHen_V1.1.6_mumayi_8045e.apk
http://static.nduoa.com:80/apk/12/12212/com.rovio.angrybirdsrio.apk
http://58.249.61.62:80/themes/sisdj/1.3/4c/42b/4c42bd54/qd1314.sis
http://apka.mumayi.com:80/8376/woaitoulan_V1.0%20.5_mumayi_a3251.apk
可是有不少重复哦。
去重? 开始想到python。其实没必要。
sort resumeurl |uniq -u|wc -l
这样子就知道到底有多少个url还在漫漫等待着断点续传了。
看来断点续传还是要设置一个timeout,真是没完没了的等待。
分享到:
相关推荐
"备份日志(剪切)11111.exe"可能是这个自动备份工具的执行程序,通过运行这个程序,系统会按照预定的配置或脚本,将Windows事件日志复制到安全的位置,以防止原始日志被覆盖或丢失。通常,这种脚本会包含Windows...
在Windows操作系统中,管理和清理日志文件是维护系统...通过以上介绍,你应该能够理解如何编写和使用Windows批处理脚本来清理日志,以及如何设置定时任务进行自动化清理。请务必谨慎操作,避免对系统造成不可逆的影响。
脚本会将日志文件移动到指定的备份位置,例如一个外部硬盘或网络共享目录。 3. 错误处理:一个健壮的脚本会包含错误处理机制,以处理在备份过程中可能出现的问题,如目标路径不存在、权限不足或磁盘空间不足等。 4...
####log_correct函数打印正确的输出到日志文件 function log_correct () { DATE=`date “+%Y-%m-%d %H:%M:%S”` ####显示打印日志的时间 USER=$(whoami) ####那个用户在操作 echo “${DATE} ${USER} execute $0 ...
数据库日志收缩脚本,适用于SQL server 2005, 2008, 2012
本文将详细介绍如何使用 Shell 脚本来监控 Linux 服务器日志,并在出现关键字异常时触发相应的动作或告警操作,通知到邮件联系人。 安装邮件服务 为了实现邮件告警功能,需要先安装邮件服务。可以使用 mailx 软件...
linux常用定时日志清理脚本,一些应用服务器长年累积日志量庞大,用这个定时任务清理指定日志类文件。参考下吧~
因此,定时删除Oracle日志脚本就显得非常必要。 首先,我们需要了解Oracle日志的主要类型: 1. **Redo Log Files**:这是Oracle数据库的核心组件,记录所有事务的更改。分为当前日志(active)和已用日志(used)...
本文将详细介绍 Linux 环境中使用 shell 脚本来定时清理 Tomcat 日志文件的方法。该方法使用 cron 机制来实现每天自动切割日志文件,并删除 4 天前的日志文件。 知识点一:Tomcat 日志文件的重要性 Tomcat 是一个...
在linux下使用此脚本可以自定义日志,记录所有的shell命令
Nginx日志切割脚本
2. **配置使用**:在Shell脚本中,可以将原本要写入单个日志文件的输出通过管道`|`传递给cronolog,如`your_command | cronolog /path/to/log/%Y%m%d.log`。这里的`%Y%m%d.log`表示按照年月日格式创建日志文件。 3. ...
下面我们将深入探讨ThinkPHP框架的日志系统、信息泄露的风险以及如何使用这样的检测脚本来保护你的应用程序。 首先,ThinkPHP是一个流行的PHP开发框架,它的日志模块设计用于记录应用程序运行过程中的各种信息,如...
本文将详细介绍`logrotate`的使用,包括其工作原理、配置文件结构以及如何编写自动化脚本并将其添加到定时任务中。** ### 一、`logrotate`工作原理 `logrotate`的工作机制是基于时间周期对日志文件进行切割,通常...
内容概要: ...2、备份日志后原日志文件不删除只清空当前当前日志内容,释放空间并把备份日志进行压缩存储。 备份日志清理采用以下两种方式: 1、采用find命令方式进行清理。 2、普通命令方式进行清理。
在Linux系统中,管理和清理日志文件是维护...通过这个"Linux顶定时日志删除脚本",用户不仅可以有效地管理日志文件,还可以学习到Linux系统管理和shell脚本编写的相关知识,这对于日常的运维工作来说是非常有价值的。
综上所述,通过上述知识点的详细解析,我们可以了解到该脚本是如何通过简单的Shell命令实现对服务的日志监控及自动重启功能的。对于运维人员来说,掌握这些基本的Shell脚本编写技巧是非常重要的,它们有助于提高系统...
1)SAP HCI上打印IFLOW的日志。2)能看到HTTP详细信息,包括header,body,property等信息。
此外,这个脚本没有包含自动保留旧日志或按照时间戳进行清理的功能,如果你需要这样的功能,可以进一步扩展脚本,例如结合`find`命令查找并删除一定天数前的日志。 注意,对于安全敏感的操作,如删除文件,最好遵循...
自己写的tomcat日志分割脚本,自动分割日志,自动删除过期日志,也可以用于其他容器日志分割,稍加修改即可