python爬取知乎那些神评论数据 -

小taomi_77

浏览: 44619 次
性别:
来自: 成都

最近访客更多访客>>

lyndon.lin

朝明11

简_单

ybb35789

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (26)

社区版块

存档分类

python爬取知乎那些神评论数据

对于很多年轻人来说，知乎也是一个必不可少的社交软件，知乎上面有很多的话题大家都愿意参与讨论，也有很多的神评论。有些问题下面的回答数竟有上万条，实在太多了忍不住了，好想知道大家都评论了些什么。所以这种情况下就可以发挥下我们的爬虫技术了。
首先需要明确需求，爬什么数据？这里我们可以直接爬取知乎首页上推荐的评论比较多的问题，包括该问题下评论的用户的归属地、用户的昵称、用户的性别、用户回答的赞同数、用户回答的评论数。爬虫我们之前写过很多遍了，思路都差不多，而且知乎网站对爬虫还是很友好的反爬机制并不是很严。这里我只是简单的用到代理IP和随机ua，那些上万评论数的问题很快就爬取完了。全部源码献上，关于代码的解释，可以搜索亿牛云详细了解，这里就不再赘述了，如果还有问题，可以私信或者评论问我。
#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http" : proxyMeta,
        "https" : proxyMeta,
    }

    # 设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}

    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text
爬取结果简单的进行了整理，因为问题的太多，爬取的数据也比较多，所以整理好后下次分享给大家参考。爬虫学习就是要多实践，爬取各种有难度的网站去解决更多反爬机制，这样才能让自己的爬虫技术有提升。

0
顶

0
踩

分享到：

关于“第四针”，“阳康”人群要打吗?

2022-12-28 16:32
浏览 3678
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python爬取知乎那些神评论数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python爬取知乎那些神评论数据

评论

发表评论

相关推荐

最近访客更多访客>>