`
mushme
  • 浏览: 788483 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

使用python从360doc上抓取内容

 
阅读更多
#人生苦短,我用python
在360doc上查到一篇不错的文章,准备复制收藏的时候,提示让我登录。
我没有帐号,只好祭出python,顺利拿到数据,自动根据网页标题,保存成html页面
提示:360doc服务端,检查了header,代码里已经添加了。
import urllib.request
from urllib import request
import os

hosturl = 'http://www.360doc.com/content/14/0813/17/15477063_401589947.shtml'

#构造header,一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
           'Referer' : hosturl}
#打开登录主页面(他的目的是从页面下载cookie,这样我们在再送post数据时就有cookie了,否则发送不成功)
request = urllib.request.Request(hosturl, None, headers)
response = urllib.request.urlopen(request)
htmldata = response.read()
data=htmldata.decode('utf-8')

pre = '<span id="articlecontent" onmousedown="newhighlight = true;" onmouseup="NewHighlight(event)">'
index1 = data.find(pre) + len(pre)
index2 = data.find('<div id="viewerPlaceHolder" style="width: 717px; height: 700px; display: none;">', index1)
content = data[index1 : index2]


pretitle = '<div class="biaoti2 lf360">'
indextitle1 = data.find(pretitle) + len(pretitle)
indextitle2 = data.find('</div>', indextitle1)
title = data[indextitle1 : indextitle2].replace("\r\n","").strip()

print(title)
f = open(title+"_"+hosturl.split("/")[-1],"w")
f.write(content)


0
0
分享到:
评论

相关推荐

    python抓取360百科词条

    学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中,由于一个小小的改动,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,最终还是自己解决了,其实就是对list列表理解不够...

    Python-游戏协议数据抓取解析工具

    其次,`pywin32` 是Python的一个扩展包,它提供了对Windows API的访问,使Python程序员能够在Windows系统上进行底层操作。在这个游戏数据抓取工具中,pywin32模块被用来获取进程ID。获取进程ID的能力对于定位和监控...

    Python车牌识别、车牌抓取源代码

    Python车牌识别、车牌抓取源程序,运行程序前需先导入cv2和numpy包。

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    一个简化的示例,使用Python的requests库来抓取网页内容,并使用BeautifulSoup库来解析HTML

    一个简化的示例,使用Python的requests库来抓取网页内容,并使用BeautifulSoup库来解析HTML 遵守robots.txt:在编写爬虫时,请确保你遵守目标网站的robots.txt文件规定。 不要过度请求:避免在短时间内发送大量请求...

    python编写的淘宝数据抓取工具

    Scrapy是一个强大的Python爬虫框架,适用于构建复杂的爬虫项目,能够快速地从网页中抓取所需信息。在这个特定的案例中,该工具主要针对淘宝网站,用于获取与特定关键字相关的商品数据。 首先,我们要了解Python在...

    python邮箱抓取脚本

    python邮箱抓取脚本,利用正则表达式从文本内容中抓取邮箱。

    python小程序:数据抓取入库

    首先,数据抓取(Web Scraping)是通过自动化的方式从网页上提取大量信息的过程。Python提供了许多强大的库来支持这项工作,如BeautifulSoup、Scrapy等。BeautifulSoup库主要用于解析HTML和XML文档,可以方便地查找...

    地图瓦片抓取之python

    本项目以Python语言为基础,讲解如何实现地图瓦片的抓取。 Python作为一门强大的编程语言,因其简洁的语法和丰富的库支持,成为处理地图数据的常用工具。在地图瓦片抓取中,主要涉及到以下几个关键知识点: 1. **...

    python简单爬虫抓取网页内容实例

    一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试

    Python-抓取网络上共享的迅雷账户并且校验是否可用

    在Python编程领域,Web爬虫是一项重要的技术,用于自动化地从互联网上收集信息。本项目主要探讨如何利用Python抓取网络上共享的迅雷(Thunder)会员账户,并进行有效性校验。迅雷作为一款流行的下载工具,其会员账户...

    python抓取并保存html页面时乱码问题的解决方法

    综上所述,解决Python抓取HTML页面时的乱码问题需要正确识别和处理编码。通过检测网页的编码、比较声明编码以及在必要时转换编码,可以有效地避免乱码的出现。此外,使用适当的库和模块(如`chardet`和`...

    使用Python实现windows下的抓包与解析

    在本文中,我们将深入探讨如何使用Python在Windows操作系统下实现数据包的抓取与解析。首先,我们需要了解的背景信息是,系统环境为Windows 7,选用Python 2.7而不是Python 3,主要是因为Scapy库在Python 2中的安装...

    Python网页抓取讲解.pptx

    Python 网页抓取是指使用 Python 语言从互联网上抓取数据的过程。该技术广泛应用于数据挖掘、机器学习、自然语言处理等领域。下面是 Python 网页抓取的详细讲解: 一、为什么需要网页抓取 网页抓取可以帮助我们从...

    pythondocx无法处理 “doc格式” 文件,于是我这样做.......docx

    使用 Python 将 DOC 文件转换为 DOCX 文件 Python 是一种功能强大的语言,可以用来处理各种类型的文件,包括 Word 文件。然而,Python 的 docx 库只能处理 DOCX 文件,不能直接处理 DOC 文件。这就需要我们使用...

    Python-使用python抓取微信公众号中的文章

    使用python抓取微信公众号中的文章

    使用 Python 进行 Web 抓取实践:使用有效的 Python 技术从 Web 中提取高质量数据

    从介绍 Web 抓取基础知识和 Python 编程开始,您将涵盖一系列抓取技术,包括 requests、lxml、pyquery、Scrapy 和 Beautiful Soup。您还将掌握高级主题,例如安全 Web 处理、Web API、用于 Web 抓取的 Selenium、PDF...

    Python27 豆瓣影评抓取 源码 及插件下载

    在本资源中,我们主要关注的是使用Python27版本进行豆瓣影评的抓取。Python是一种广泛使用的高级编程语言,特别适合于网络爬虫开发,因为它有丰富的库支持,如BeautifulSoup、Scrapy等,可以方便地解析和提取网页...

    抓取Bing 搜索引擎的搜索结果的python 脚本

    本篇文章将深入探讨如何使用Python编写一个脚本来抓取Bing搜索引擎的搜索结果,这涉及到网络爬虫的基本原理、Python的相关库以及如何处理抓取的数据。 首先,我们需要了解Python中的网络请求库,如`requests`。`...

    第一个python项目,使用requests抓取数据

    在这个项目中,我们将探索如何使用Python的requests库来从网络上抓取数据。requests是Python中最常用的一个库,它提供了简单易用的API来发送HTTP请求,这对于进行网页抓取、API交互等任务非常方便。 【描述】:...

Global site tag (gtag.js) - Google Analytics