磕磕碰碰Selenium模拟登陆爬取数据（一）

心杀心

浏览: 31924 次
性别:
来自: 济南

最近访客更多访客>>

lzylin

juzhishang

hongchaong

For_Love

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

JAVA

需求：

实现考勤机网页登陆，取得当天考勤记录，爬取数据，校验当天是否正常打卡

思路：

采用Selenium WebDriver，实现模拟登陆功能，模拟网页操作，出现数据后，获取页面数据并判断。

失败尝试1

刚开始考虑，已爬虫为解决思路，考察jsoup、htmlunit、WebCollector爬虫，后发现现有案例并不支持。

需求是登录系统，而非直接动态或静态页面(如微博)，尝试后舍弃该思路。

失败尝试2

思路转变，不应定位爬虫，而应定位为模拟WEB登陆，引用autoit3进行编程，在登录、页面定位成功后，发现无法处理页面弹出问题，尝试多次后放弃。

失败尝试3

autoit3因未解决最后弹出页面问题，改用JAVA模拟登陆，采用selenium进行处理。

拦路虎1，jar包列表

下载地址：http://selenium-release.storage.googleapis.com/index.html

jar包：

selenium-java-2.42.2.jar;

selenium-java-2.42.2-srcs.jar;

辅助jar包：

apache-mime4j-0.6.jar
bsh-1.3.0.jar
cglib-nodep-2.1_3.jar
commons-codec-1.9.jar
commons-collections-3.2.1.jar
commons-exec-1.1.jar
commons-io-2.4.jar
commons-jxpath-1.3.jar
commons-lang3-3.2.1.jar
commons-logging-1.1.3.jar
cssparser-0.9.11.jar
guava-15.0.jar
hamcrest-core-1.3.jar
hamcrest-library-1.3.jar
htmlunit-2.14.jar
htmlunit-core-js-2.14.jar
httpclient-4.3.2.jar
httpcore-4.3.1.jar
httpmime-4.3.2.jar
ini4j-0.5.2.jar
jcommander-1.29.jar
jetty-websocket-8.1.8.jar
jna-3.4.0.jar
jna-platform-3.4.0.jar
json-20080701.jar
junit-dep-4.11.jar
lifan.txt
nekohtml-1.9.20.jar
netty-3.5.7.Final.jar
operadriver-1.5.jar
phantomjsdriver-1.1.0.jar
protobuf-java-2.4.1.jar
sac-1.3.jar
serializer-2.7.1.jar
testng-6.8.5.jar
xalan-2.7.1.jar
xercesImpl-2.11.0.jar
xml-apis-1.4.01.jar

分享到：

磕磕碰碰Selenium模拟登陆爬取数据（二） | 常用JAVA语句

2018-08-09 16:18
浏览 1609
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论