IWorkloadStorable接口:
Spider的主要工作之一就是处理访问过的和将要访问的站点的列表,称为作业。IWorkloadStorable接口定义的对象就可以存入和取出作业中的网页.
最主要的两个方法:
public String assignWorkload();//取出作业里的网页
public void addWorkload(String url);//向作业里存入网页;
除此以外,还有其他的一些方法和成员变量:
1. package com.heaton.bot;
2.
3. /**
4. * This interface defines a class that can
5. * be used to store a spider's workload(作业).
6. * The Bot package currently supports two
7. * different workload stores:
8. *
9. * SpiderInternalWorkload - Stores the
10. * contents of the workload in memory.
11. *
12. * SpiderSQLWorkload - Stores the contents
13. * of the workload in an SQL database.
14. */
15. public interface IWorkloadStorable {
16.
17. /**
18. * A workload entry has a status of running
19. * if the spider worker is opening or downloading
20. * that page. This state usually goes to COMPLETE
21. * or ERROR.
22. */
23. public static final char RUNNING = 'R';
24.
25. /**
26. * Processing of this URL resulted in an
27. * error.
28. */
29. public static final char ERROR = 'E';
30.
31. /**
32. * This URL is waiting for a spider
33. * worker to take it on.
34. */
35. public static final char WAITING = 'W';
36.
37. /**
38. * This page is complete and should not
39. * be redownloaded.
40. */
41. public static final char COMPLETE = 'C';
42.
43. /**
44. * The status is unknown.
45. */
46. public static final char UNKNOWN = 'U';
47.
48. /**
49. * Call this method to request a URL
50. * to process. This method will return
51. * a WAITING URL and mark it as RUNNING.
52. *
53. * @return The URL that was assigned(指定,分配).
54. * 相当于getworkload()。
55. */
56. public String assignWorkload();
57.
58. /**
59. * Add a new URL to the workload, and
60. * assign it a status of WAITING.
61. *
62. * @param url The URL to be added.
63. */
64. public void addWorkload(String url);
65.
66. /**
67. * Called to mark this URL as either
68. * COMPLETE or ERROR.
69. *
70. * @param url The URL to complete.
71. * @param error true - assign this workload a status of ERROR.
72. * false - assign this workload a status of COMPLETE.
73. */
74. public void completeWorkload(String url,boolean error);
75.
76. /**
77. * Get the status of a URL.
78. *
79. * @param url Returns either RUNNING, ERROR
80. * WAITING, or COMPLETE. If the URL
81. * does not exist in the database,
82. * the value of UNKNOWN is returned.
83. * @return Returns either RUNNING,ERROR,
84. * WAITING,COMPLETE or UNKNOWN.
85. */
86. public char getURLStatus(String url);
87.
88. /**
89. * Clear the contents of the workload store.
90. */
91. public void clear();
92. }
93.
其他几个方法不是常用到,倒是那几个状态变量可以留作理清思路之用。
That‘s OK!
分享到:
相关推荐
java网络蜘蛛源码发展套件 ...IWorkloadStorable Link Log Recognize RecognizeCountry RecognizeLink Spider SpiderInternalWorkload SpiderSQLWorkload SpiderWorker URLUtility
毕设和企业适用springboot企业数据管理平台类及跨境电商管理平台源码+论文+视频
功能说明: 环境说明: 开发软件:VS 2017 (版本2017以上即可,不能低于2017) 数据库:SqlServer2008r2(数据库版本无限制,都可以导入) 开发模式:mvc。。。
labview程序代码参考学习使用,希望对你有所帮助。
毕设和企业适用springboot社交应用平台类及用户数据分析平台源码+论文+视频
大米外贸商城系统 简称damishop 完全开源版,只需做一种语言一键开启全球133中语言自动翻译功能,价格实现自动汇率转换,集成微信支付宝 paypal以及国外主流支付方式,自带文章博客系统。 软件架构 基于MVC+语言包模式,增加控制台,API导入产品方便对接其他系统(带json示例数据)。 使用要求 PHP7.4+ MYSQL5.6+ REDIS(可选) 安装方法 composer install 打开安装向导安装 http://您的域名/install 特色 1、缓存层增加时间与批量like删除 2、API产品导入方便对接其他系统 3、增加控制台命令行,命令行生成语言翻译包 4、后台一键开启自动翻译模式,支持全球133中语言,由于google代理翻译需要收费,这个功能需要付费。 5、可选购物车与ajax修改购物车产品 6、一键结算checkout 7、增加网站前台自定义路由 方便seo 更新日志 v3.9.7 集成鱼码支付接口,方便个人站长即使收款到账使用 v3.9.3 更新内容 1:增加ueditor与旧编辑器切换 2:增加可视化布局插
labview程序代码参考学习使用,希望对你有所帮助。
毕设和企业适用springboot生鲜鲜花类及生物识别平台源码+论文+视频.zip
毕设和企业适用springboot企业健康管理平台类及视觉识别平台源码+论文+视频.zip
毕设和企业适用springboot视频编辑类及餐饮管理平台源码+论文+视频.zip
labview程序代码参考学习使用,希望对你有所帮助。
毕设和企业适用springboot社区物业类及智能仓储平台源码+论文+视频
毕设和企业适用springboot企业知识管理平台类及人工智能医疗平台源码+论文+视频
毕设和企业适用springboot汽车电商类及新闻传播平台源码+论文+视频
毕设和企业适用springboot生鲜鲜花类及全渠道电商平台源码+论文+视频.zip
毕设和企业适用springboot企业数据智能分析平台类及投票平台源码+论文+视频
毕设和企业适用springboot全渠道电商平台类及人工智能客服平台源码+论文+视频
毕设和企业适用springboot企业云存储平台类及AI数据标注平台源码+论文+视频
毕设和企业适用springboot人工智能客服系统类及旅游规划平台源码+论文+视频
毕设和企业适用springboot社交电商类及环境监控平台源码+论文+视频