PYTHON抓取公众号

jackyrong

浏览: 7978983 次
性别:
来自: 广州

最近访客更多访客>>

u013375349

尘与飞

深情痞子

Crow00

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

python

1.基于搜狗微信搜索的微信公众号爬虫

a. 项目地址：https://github.com/Chyroc/WechatSogou

b. 基于搜狗微信搜索的微信公众号爬虫接口开发，可获取文章的临时链接，获取微信公众号的最近10篇文章

2.微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)

a. 项目地址：https://github.com/sundy-li/wechat_spider

b. 通过Man-In-Middle 代理方式获取微信服务端返回,自动模拟请求自动分页,抓取对应点击的所有历史文章

3.使用Python实现的微信公众号爬虫

a. 项目地址：https://github.com/bowenpay/wechat-spider

4.爬取指定微信公众号的全部历史文章，使用 JS 实现

a. 项目地址：https://github.com/iamyy/wechat-spider

b. 目前需要手动获取 cookie 等验证信息

5.基于搜狗微信入口的微信爬虫程序，使用Python实现。

a. 项目地址：https://github.com/CoolWell/wechat_spider

b. 由基于phantomjs的python实现。使用了收费的动态代理。采集包括文章文本、阅读数、点赞数、评论以及评论赞数。效率：500公众号/小时。根据采集的公众号划分为多线程，可以实现并行采集。

6.Java 基于selenium抓取搜狗微信公众号文章

a. 项目地址：https://github.com/badaozhai/wechat_webdriver_spider

访问接口需要的参数：

uin : 用户对于公众号的唯一ID, 本来是一个数字, 传的是base64之后的结果；

key : 与公众号和uin绑定, 过期时间大概是半小时；

pass_ticket: 另外一个验证码, 与uin进行绑定；

req_id: 在文章里HTML里, 每次请求会不一样, 用来构成获取阅读点赞接口的RequestBody, 一次有效；

获取阅读点赞接口有频率限制, 测试的结果是一个微信号5分钟可以查看30篇文章的阅读点赞

作者：楚江数据
链接：https://www.jianshu.com/p/cf4b6b9555fe
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

分享到：

介绍个不错的RESTFUL MOCK的工具wiremock | LINUX下EPOLL等不错的文章收藏

2018-04-26 08:19
浏览 2825
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论