需求:
实现考勤机网页登陆,取得当天考勤记录,爬取数据,校验当天是否正常打卡
思路:
采用Selenium WebDriver,实现模拟登陆功能,模拟网页操作,出现数据后,获取页面数据并判断。
失败尝试1
刚开始考虑,已爬虫为解决思路,考察jsoup、htmlunit、WebCollector爬虫,后发现现有案例并不支持。
需求是登录系统,而非直接动态或静态页面(如微博),尝试后舍弃该思路。
失败尝试2
思路转变,不应定位爬虫,而应定位为模拟WEB登陆,引用autoit3进行编程,在登录、页面定位成功后,发现无法处理页面弹出问题,尝试多次后放弃。
失败尝试3
autoit3因未解决最后弹出页面问题,改用JAVA模拟登陆,采用selenium进行处理。
拦路虎1,jar包列表
下载地址:http://selenium-release.storage.googleapis.com/index.html
jar包:
selenium-java-2.42.2.jar;
selenium-java-2.42.2-srcs.jar;
辅助jar包:
apache-mime4j-0.6.jar
bsh-1.3.0.jar
cglib-nodep-2.1_3.jar
commons-codec-1.9.jar
commons-collections-3.2.1.jar
commons-exec-1.1.jar
commons-io-2.4.jar
commons-jxpath-1.3.jar
commons-lang3-3.2.1.jar
commons-logging-1.1.3.jar
cssparser-0.9.11.jar
guava-15.0.jar
hamcrest-core-1.3.jar
hamcrest-library-1.3.jar
htmlunit-2.14.jar
htmlunit-core-js-2.14.jar
httpclient-4.3.2.jar
httpcore-4.3.1.jar
httpmime-4.3.2.jar
ini4j-0.5.2.jar
jcommander-1.29.jar
jetty-websocket-8.1.8.jar
jna-3.4.0.jar
jna-platform-3.4.0.jar
json-20080701.jar
junit-dep-4.11.jar
lifan.txt
nekohtml-1.9.20.jar
netty-3.5.7.Final.jar
operadriver-1.5.jar
phantomjsdriver-1.1.0.jar
protobuf-java-2.4.1.jar
sac-1.3.jar
serializer-2.7.1.jar
testng-6.8.5.jar
xalan-2.7.1.jar
xercesImpl-2.11.0.jar
xml-apis-1.4.01.jar
相关推荐
读取excel中关键字,利用webdriver对关键词进行搜索,将搜索到的百度百科词条保存到excel中。
所上传的资源是selenium+python爬取天猫商品,内含源代码+mysql数据库脚本+详细部署视频,另外还对过程中可能出现的问题进行了汇总,对于正在学习这方面的你是一个很好的选择,希望对你有所帮助。
主要介绍了Python selenium爬取微信公众号历史文章代码详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
用selenium模拟浏览器爬取租房信息-附件资源
此资源仅供学习用途,当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取,天眼查的反爬技术算是很不错的,仅仅用于个人学习用,并不可以进行大数据的爬取 技术: python selenium 爬虫 模拟登陆 ...
Selenium模拟浏览器是爬取动态加载数据的另一种方法。Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作(如单击、输入等操作)。同时还可以获取浏览器当前呈现的页面内容,做到可见即可爬。 使用...
python+selenium爬取地理空间数据云影像的元数据,地理空间数据云影像的元数据信息是动态获取的,所以要用到selenium实现动态点击,而且翻页也需要动态去做
【作品名称】:基于Python+selenium实现的爬取京东评论的爬虫系统,无需登录 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目...
第一部分为获取每条微博具体的url(爬取微博数据),第二部分为根据url爬取微博相关内容及其评论(根据url爬取新闻内容)。 首先说明第一部分。 数据科学基础大作业-爬虫代码使用selenium编写,爬取的是网页版微博+源...
通过selenium模拟浏览器爬取有道翻译结果,此资源仅供学习用途,当前selenium都是基于无头模式的chrome浏览器进行爬虫抓取,
总之,Selenium 与 Java 的结合为网页爬虫提供了一个强大且灵活的平台,尤其适合需要模拟用户交互的场景。这个入门实例只是一个起点,实际应用中可能需要对各种情况进行处理和优化。不断学习和实践,你将在网页爬取...
本文将深入探讨如何使用Python结合Selenium来爬取集团招聘网站的职位信息,并利用正则表达式进行数据过滤。 首先,Python是一种高级编程语言,以其简洁、易读的语法和丰富的库支持而闻名。在数据处理和网络爬虫领域...
python selenium 模拟淘宝账号密码拉动滑动块模拟登陆抓取商品数据,通过模拟打开浏览器,进入登录页,获取表单位置,输入账号密码,模拟滑动块拉动,点击登录,搜索关键词,搜索,提取商品信息。
本文实例为大家分享了selenium+PhantomJS...通过selenium 模拟浏览器请求的方法测试后发现,可利用 selenium 方法请求获取数据; #导入需要的模块 from selenium import webdriver import time from lxml import etr
selenium对动态加载数据的下拉爬取
Selenium是一个自动化测试工具,但同时也常被用于网页爬虫,因为它可以模拟用户的真实行为,如点击、滚动、填写表单等。这使得它在处理动态加载或需要交互的网页时特别有用。 1. **获取题目分类和练习题页面URL**:...
用selenium模拟浏览器爬取淘宝订单信息-附件资源