`
sharong
  • 浏览: 493403 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
D1667ae2-8cfc-3b68-ac7c-5e282789fa4a
论开源
浏览量:8720
7eb53364-fe48-371c-9623-887640be0185
Spring-data-j...
浏览量:13059
社区版块
存档分类
最新评论

招聘信息抓取系统E3Labor V1.0.2

阅读更多
上招聘网执行查找公司招聘信息,以1分钟翻动一页的速度紧盯屏幕,翻看200页内容,需要多长时间?3小时!现在可以说NO了!
本抓取系统可以抓取国内各大招聘网站的最新招聘信息,进行详尽的分类识别,将之保存在本地硬盘中。根据网站的响应快慢,平均抓取速度为15分钟4000条以上的招聘信息的数据,同时包含公司介绍和职位介绍。
您现在只需要花费15分钟时间,就可以喝着咖啡,离线浏览本软件为您获取的最新招聘信息了。

软件名称:E3Labor(Employment/Electronic/Especial Labor)
版本:1.0.2
作者:千山独行

简介:本软件使用纯Java语言开发。首先使用当前先进的web2.0平台新特性及正则表达式匹配方式,根据配置文件中指出的网址对各大网站的实时数据进行抓取;然后进行详尽的分析并储存,是一个Spider爬虫程序,同时提供了内容管理系统(CMS)的相关功能。

目前提供的功能:
1.配置简便,只需要两个配置文件即可;可对配置文件中指出的网站进行全面的深度抓取和分析;
2.配置工作完成后,可开启是否定时功能,定时对网站的内容进行抓取;
3.实时动态抓取各大招聘网站的招聘职位的详细信息并进行全面细致的分类,但是并不只限于抓取此类型网站;
4.对抓取到的元数据进行详尽的分析,可选择存储至数据库,本地硬盘或者网络硬盘等方式;
5.可对抓取的内容/网页进行七大类型的分类识别并保存(保存主要针对本地硬盘和网络硬盘),例如根据公司性质,公司规模,工作地点等进行分类;
6.对于保存至硬盘的存储方式,分类后的内容,最多可嵌套构成3级目录,保存至用户指定文件夹下;
7.使用数据字典方式对抓取的内容进行分类识别及过滤,可通过实时修改数据字典实现不同分类过滤等功能,因此可轻松应对网站改版后的实时抓取工作;
8.使用数据字典识别黑名单公司及需要重点关注的招聘单位等功能;
9.使用单线程抓取方式,对微机性能几乎没有特殊要求;初步测试在CPU为赛扬2G,内存512MB的台式机上,20分钟即可抓取,分析并分类保存6000条以上数据(此数据和网站响应速度有关);程序运行时内存耗费始终保持在40MB左右;
10.全面使用嗅探器方式定制抓取模式,可使用嗅探器根据自身喜好抓取需要的网页。例如抓取截止日期为某年某月某日之后的网页等;
11.全程使用嗅探器进行跟踪评估,当发现抓取到的网页不符合要求时,程序会安全退出;
12.运行时异常抛出机制完备,当某条数据抓取分析错误时,并不影响整个抓取工作的进行;
13.提供可扩展接口,使用者可根据实际需要,自行开发新的抓取模式并编码实现自己的网站抓取程序,以适应千变万化的互联网站;

注:此试用版仅抓取某个国内知名招聘网站的800条销售类最新招聘数据,然后分类保存到本地硬盘名为E3LaborCareerInfo的根目录下。

实现技术:java
运行文件:E3Labor-1.0.2-eval.exe
运行平台:windows 2k,windows xp等win操作系统,需要jre1.5及后续版本的java运行环境,linux及unix系统下未进行测试
  • E3Labor-1.0.2-eval.rar (3.5 MB)
  • 描述: 加压此文件,运行E3Labor-1.0.2-eval.exe即可,需要运行硬盘分区至少有40M硬盘剩余空间。
  • 下载次数: 361
4
8
分享到:
评论
4 楼 qinglangee 2010-08-25  
有源码就不叫试用版了
3 楼 yangfuchao418 2010-08-23  
yangfuchao418 写道
没源码啊?

楼主真不厚道
2 楼 yangfuchao418 2010-08-23  
没源码啊?
1 楼 sharong 2009-01-15  
本文章为虾米没人评论,呵呵

相关推荐

    Python项目-自动办公-56 Word_docx_格式套用.zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    《松鼠》生态性课堂体验教案.docx

    《松鼠》生态性课堂体验教案

    Java系统源码+智慧图书管理系统

    Java系统源码+智慧图书管理系统 内容概要: 本资源包含了完整的Java前后端源码及说明文档,适用于想要快速搭建并部署Java Web应用程序的开发者、学习者。 技术栈: 后端:Java生态系统,包含Spring Boot、Shiro、MyBatis等,数据库使用Mysql 前端:Vue、Bootstrap、Jquery等 适用场景示例: 1、毕业生希望快速启动一个新的Java Web应用程序。 2、团队寻找一个稳定的模板来加速产品开发周期。 3、教育机构或个人学习者用于教学目的或自学练习。 4、创业公司需要一个可以立即投入使用的MVP(最小可行产品)。

    基于ssm+jsp实现的超市管理系统高级版v2-lw.zip

    项目包含前后台完整源码。 项目都经过严格调试,确保可以运行! 具体项目介绍可查看博主文章或私聊获取 助力学习实践,提升编程技能,快来获取这份宝贵的资源吧!

    《松鼠》教学方案.docx

    《松鼠》教学方案

    基于ssm的计算机课程实验管理系统源代码(完整前后端+mysql+说明文档+LW).zip

    学生角色 学生用户在系统的前台界面可以浏览站内新闻、系统公告等公共的信息,在进行了注册和登录等操作后可以进入个人后台管理界面,对自己的个人信息进行管理,还可以进行实验成绩查看和实验交流等操作。 教师角色 教师用户也可以正常使用本系统的前台功能,但最主要的功能还是在个人后台界面中。在教师的个人后台界面中,首先教师可以管理自己的个人信息,还可以对学生进行实验任务书下达,对学生的实验成果和实验成绩管理等操作。 管理员角色 系统管理员可以管理整个系统的数据,比如可以管理教师和学生的个人资料,对违反了网站及学校实验室规定的同学可以进行删除。除了管理教师和学生的信息外,管理员用户还可以对公告信息及新闻信息等进行管理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    毕业设计-0-1背包问题动态规划模型Python代码.rar

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。

    基于ssm的大创项目申报管理系统源代码(完整前后端+mysql+说明文档+LW).zip

    管理员 管理员管理 工作人员管理 用户管理 公告信息管理 往届项目管理 工作人员 个人资料修改 公告查看 项目申报信息管理,发布(项目申报信息、要求、时间节点等信息) 项目模板管理 往届项目查询 用户 个人资料修改 公告查看 项目模板下载 项目申报信息查看 我的项目申报 项目申报结果查看 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    福禄寿FloruitShow - 多一个世界 [mqms].ogg

    福禄寿FloruitShow - 多一个世界 [mqms].ogg

    Python项目-自动办公-45 excel处理实例(一维转二维).zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    商业企业资本结构与公司价值关系研究 开题报告.docx

    商业企业资本结构与公司价值关系研究 开题报告.docx

    间位芳纶纸全球市场研究报告:2023年市场规模达到约6.31亿美元

    间位芳纶纸全球市场研究报告:2023年市场规模达到约6.31亿美元 在特种纸材料领域,间位芳纶纸以其高强度、耐高温、耐腐蚀、本质阻燃和卓越的电绝缘性能,成为了现代工业不可或缺的关键材料。从电气绝缘到蜂窝结构材料,再到民间用品,间位芳纶纸的广泛应用不仅推动了多个行业的进步,更展现了其巨大的市场潜力。然而。本文将深入探讨间位芳纶纸市场的现状、技术创新、应用领域、竞争格局及未来趋势,并强调用户咨询在引领市场发展中的关键作用。 市场概况 据QYR最新调研,2023年全球间位芳纶纸市场规模达到约6.31亿美元,同比增长12.88%。这一增长主要得益于电气绝缘领域和蜂窝芯材领域的强劲需求。电气绝缘领域作为间位芳纶纸的主要应用领域,2023年占比高达62.76%,而蜂窝芯材领域则紧随其后,占比34.71%。在中国市场,间位芳纶纸的发展同样令人瞩目。尽管起步较晚,但得益于技术进步和政策支持,国内间位芳纶纸市场规模持续走高,从2016年的4.8亿元增长至2023年的10亿元,期间复合年增长率为12.01%。 技术创新与趋势 技术创新是推动间位芳纶纸市场发展的核心动力。随着纳米技术、智能制造等技术的不断发

    毕业设计-BP神经网络模型Python代码.rar

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。

    Python 批量转换PPT、Excel、Word为PDF文件工具

    Python 批量转换PPT、Excel、Word为PDF文件工具

    四川大学期末考试试题(开卷).pdf

    四川大学期末考试试题(开卷).pdf

    毕业设计-RBF神经网络做回归预测代码.rar

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。

    springboot-基于JavaScript的在线考试系统.zip

    springboot-基于JavaScript的在线考试系统.zip

    深圳市2005-2024年近20年历史气象数据下载

    深圳市2005-2024年近20年的历史气象数据,每3小时更新一次数据,参数包含气温、气压、降水量、云层、能见度、风向、湿度等,几万条数据

    Python项目-实例-15 屏保计时器.zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

Global site tag (gtag.js) - Google Analytics