浏览 3955 次
锁定老帖子 主题:网页抓取小程序
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-09-26
最后修改:2012-09-26
使用技术: HTMLPARSER 1.6version 框架,Mysql数据库网页抓取小程序 数据库表结构 CREATE TABLE `downloads` ( `seqno` int(11) NOT NULL, `titile` varchar(1000) default NULL, `content` mediumtext, `link` mediumtext, PRIMARY KEY (`seqno`) ) ENGINE=InnoDB DEFAULT CHARSET=gbk; 待优化地方: 1.抓取日志未处理,对于出错的详细内容,抓取的每个页面环节步骤记录不清楚 2.页面的抓取规则太死,不能使用灵活的规则进行页面抓取 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2012-09-26
之前我用php也写过一个,你那个待优化的两点我都实现了。
现在下你这个java版的来试一下。 |
|
返回顶楼 | |
发表时间:2012-09-26
直接用python 会不会更简单 好用些呢
|
|
返回顶楼 | |
发表时间:2012-09-26
huangqinghe 写道 直接用python 会不会更简单 好用些呢
我也觉得,强烈要求用python,大爱啊! |
|
返回顶楼 | |