论坛首页 入门技术论坛

用HttpClient抓取人人网高校数据库(省,高校,院系三级级联)--更新1

浏览 36931 次
该帖已经被评为新手帖
作者 正文
   发表时间:2010-11-29  
不错.
LZ建议你了解一下json.目前的趋势是json越来越来常用了.
你可以使用一个json的解析器进行解析,例如Jackson , JSON-lib,Gson .这些项目可以方便的将json转为一个可以读写的中间格式,也可以快速的完成json与bean的转换.
0 请登录后投票
   发表时间:2010-11-29  
我最近也在写一个高校微薄系统,正需要这些资料,LZ解决问题的思路很好,也有很强的动手能力,赞一个。

现在在公司无法上renren,会被监控,能否把你生成的sql发我邮箱:yuanjob@163.com
谢谢
0 请登录后投票
   发表时间:2010-11-29  
喷正则的是羡慕嫉妒恨楼主的正则水平吧
0 请登录后投票
   发表时间:2010-11-29  
用HttpClient获取页面page后,利用正则表达式获取数据的确很麻烦(当然对于正则表达式好的人来说是小case啦)
所以我们选用的是htmlunit,解析准确,简单,效率嘛,感觉差了一点!
LZ也可以试试htmlunit!
0 请登录后投票
   发表时间:2010-11-29  
funever 写道
用HttpClient获取页面page后,利用正则表达式获取数据的确很麻烦(当然对于正则表达式好的人来说是小case啦)
所以我们选用的是htmlunit,解析准确,简单,效率嘛,感觉差了一点!
LZ也可以试试htmlunit!


对的那个我听过,下次做分析的时候再试试啦。
0 请登录后投票
   发表时间:2010-11-29  
phenom 写道
数据是json,需要正则一个一个解析么?累人.


java 可以操作json,何必用正则表达式么?
0 请登录后投票
   发表时间:2010-11-29  
vivid_gxp 写道
phenom 写道
数据是json,需要正则一个一个解析么?累人.


java 可以操作json,何必用正则表达式么?



下午的时候。我改进一下吧。用json。满足大家的要求好了。
0 请登录后投票
   发表时间:2010-11-29  
真的很不错,授人以渔
0 请登录后投票
   发表时间:2010-11-29  
首先,LZ作为学生,如此已经难能可贵,需要鼓励

其次,这些做法还是有点绕路,累了点。

JS注入+DOM是比较省事的做法
0 请登录后投票
   发表时间:2010-11-29  
xlyyc 写道
首先,LZ作为学生,如此已经难能可贵,需要鼓励

其次,这些做法还是有点绕路,累了点。

JS注入+DOM是比较省事的做法



你说的是 跨域访问他 然后获得数据是吧。我有想过,但是我们项目可能只会在局域网里面跑,给老师检查后就不知道会不会维护了。我担心的是如果在局域网,要是不能连接到人人那里的话,那我们不就死定了,抓下来放在自己数据库以备不测。不过还是谢谢你的关注。
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics