锁定老帖子 主题:定向爬虫 瓦力
精华帖 (3) :: 良好帖 (3) :: 新手帖 (1) :: 隐藏帖 (4)
|
|
---|---|
作者 | 正文 |
发表时间:2009-05-12
diggywang 写道 HttpURLConnection限制太多,简单的代理请求都作不来,远远没有apache commons httpclient来得强大。
这位兄弟说的好,,不过HttpURLConnection 也有代理的。。。 |
|
返回顶楼 | |
发表时间:2009-05-12
抓取数据部难,难再分析数据。
在公司做的事开发好蜘蛛,2年时间都花在分析数据上。 |
|
返回顶楼 | |
发表时间:2009-05-12
fiate 写道 抓取数据部难,难再分析数据。
在公司做的事开发好蜘蛛,2年时间都花在分析数据上。 说的对,分析困难 |
|
返回顶楼 | |
发表时间:2009-05-12
通用的啥时候实现呢
|
|
返回顶楼 | |
发表时间:2009-05-12
andy54321 写道 通用的啥时候实现呢 呵呵,,只有。周末加班加点了。。 |
|
返回顶楼 | |
发表时间:2009-05-12
我去年写过一个爬虫,目的是给客户全站做本地化镜像。
涵盖的特性有:线程池、运行期行为调整、模块化、可扩展定制、多种爬行算法、持久化、进程守护、页面兼容性、请求触发机制、远程管理接口等等。 由此深知写出一个实用爬虫的不易。 如果楼主只是要写个专门截取资源的小东西,那用perl/python写,1/10代码量就够了。 |
|
返回顶楼 | |
发表时间:2009-05-12
这个东西,写起来,难度不是很大,正则表达式多一点,,关键是要分析别人的网站,得出一定规律,然后定制一些规范
|
|
返回顶楼 | |
发表时间:2009-05-12
这是什么东西?写一个功能简介呀!
|
|
返回顶楼 | |
发表时间:2009-05-12
运行 一下就知道了,,看看打印结果,,
|
|
返回顶楼 | |
发表时间:2009-05-13
功能也太简单了吧
|
|
返回顶楼 | |