论坛首页 Java企业应用论坛

网页抓取小程序

浏览 3955 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-09-26   最后修改:2012-09-26
心血来潮,抓取了一个某网站的资源链接以及资源的内容摘要信息,自己也学习了不少东西,总结下

使用技术:
HTMLPARSER 1.6version 框架,Mysql数据库网页抓取小程序





数据库表结构

CREATE TABLE `downloads` (
  `seqno` int(11) NOT NULL,
  `titile` varchar(1000) default NULL,
  `content` mediumtext,
  `link` mediumtext,
  PRIMARY KEY  (`seqno`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;


待优化地方:
      1.抓取日志未处理,对于出错的详细内容,抓取的每个页面环节步骤记录不清楚
      2.页面的抓取规则太死,不能使用灵活的规则进行页面抓取
     
  • 大小: 43.8 KB
   发表时间:2012-09-26  
之前我用php也写过一个,你那个待优化的两点我都实现了。
现在下你这个java版的来试一下。
0 请登录后投票
   发表时间:2012-09-26  
直接用python 会不会更简单 好用些呢
0 请登录后投票
   发表时间:2012-09-26  
huangqinghe 写道
直接用python 会不会更简单 好用些呢


我也觉得,强烈要求用python,大爱啊!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics