论坛首页 Java企业应用论坛

定向爬虫 瓦力

浏览 35020 次
精华帖 (3) :: 良好帖 (3) :: 新手帖 (1) :: 隐藏帖 (4)
作者 正文
   发表时间:2009-05-12  
diggywang 写道
HttpURLConnection限制太多,简单的代理请求都作不来,远远没有apache commons httpclient来得强大。

这位兄弟说的好,,不过HttpURLConnection 也有代理的。。。
0 请登录后投票
   发表时间:2009-05-12  
抓取数据部难,难再分析数据。 
在公司做的事开发好蜘蛛,2年时间都花在分析数据上。
0 请登录后投票
   发表时间:2009-05-12  
fiate 写道
抓取数据部难,难再分析数据。 
在公司做的事开发好蜘蛛,2年时间都花在分析数据上。

说的对,分析困难
0 请登录后投票
   发表时间:2009-05-12  
通用的啥时候实现呢
0 请登录后投票
   发表时间:2009-05-12  
andy54321 写道
通用的啥时候实现呢

呵呵,,只有。周末加班加点了。。
0 请登录后投票
   发表时间:2009-05-12  
我去年写过一个爬虫,目的是给客户全站做本地化镜像。
涵盖的特性有:线程池、运行期行为调整、模块化、可扩展定制、多种爬行算法、持久化、进程守护、页面兼容性、请求触发机制、远程管理接口等等。
由此深知写出一个实用爬虫的不易。

如果楼主只是要写个专门截取资源的小东西,那用perl/python写,1/10代码量就够了。
0 请登录后投票
   发表时间:2009-05-12  
这个东西,写起来,难度不是很大,正则表达式多一点,,关键是要分析别人的网站,得出一定规律,然后定制一些规范
0 请登录后投票
   发表时间:2009-05-12  
这是什么东西?写一个功能简介呀!
0 请登录后投票
   发表时间:2009-05-12  
运行 一下就知道了,,看看打印结果,,
0 请登录后投票
   发表时间:2009-05-13  
功能也太简单了吧
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics