使用python从360doc上抓取内容 - 莫斯迷的技术站 - ITeye博客

`

mushme

浏览: 797157 次
性别:
来自: 西安

最近访客更多访客>>

mumume123

sker

odpsoft

西红柿炒笨蛋

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mushme： W.sl 写道大神：http://mushme.iteye.c ...
用python自动登录iteye
W.sl：大神：http://mushme.iteye.com/logi ...
用python自动登录iteye
mushme： jilong-liang 写道 public static v ...
选择一个好的驾校，用数据说话，我用python
jilong-liang： package sm;import java.net.URL; ...
选择一个好的驾校，用数据说话，我用python
sunshine_bean：非常感谢
jsvc将tomcat配置成服务

使用python从360doc上抓取内容

博客分类：

python

阅读更多

#人生苦短，我用python
在360doc上查到一篇不错的文章，准备复制收藏的时候，提示让我登录。
我没有帐号，只好祭出python，顺利拿到数据，自动根据网页标题，保存成html页面
提示：360doc服务端，检查了header，代码里已经添加了。

import urllib.request
from urllib import request
import os

hosturl = 'http://www.360doc.com/content/14/0813/17/15477063_401589947.shtml'

#构造header，一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
           'Referer' : hosturl}
#打开登录主页面（他的目的是从页面下载cookie，这样我们在再送post数据时就有cookie了，否则发送不成功）
request = urllib.request.Request(hosturl, None, headers)
response = urllib.request.urlopen(request)
htmldata = response.read()
data=htmldata.decode('utf-8')

pre = '<span id="articlecontent" onmousedown="newhighlight = true;" onmouseup="NewHighlight(event)">'
index1 = data.find(pre) + len(pre)
index2 = data.find('<div id="viewerPlaceHolder" style="width: 717px; height: 700px; display: none;">', index1)
content = data[index1 : index2]


pretitle = '<div class="biaoti2 lf360">'
indextitle1 = data.find(pretitle) + len(pretitle)
indextitle2 = data.find('</div>', indextitle1)
title = data[indextitle1 : indextitle2].replace("\r\n","").strip()

print(title)
f = open(title+"_"+hosturl.split("/")[-1],"w")
f.write(content)

0
顶

0
踩

分享到：

使用python备份搜狐博客 | python连接telnet

2016-01-27 15:32
浏览 2144
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python抓取360百科词条: 学习python一周，学着写了一个爬虫，用来抓取360百科的词条，在这个过程中，由于一个小小的改动，程序出现一些问题，又花了几天时间研究，问了各路高手，都没解决，最终还是自己解决了，其实就是对list列表理解不够...

Python-游戏协议数据抓取解析工具: 其次，`pywin32` 是Python的一个扩展包，它提供了对Windows API的访问，使Python程序员能够在Windows系统上进行底层操作。在这个游戏数据抓取工具中，pywin32模块被用来获取进程ID。获取进程ID的能力对于定位和监控...

python写的doc转换成pdf文件代码: python写的doc转换成pdf文件代码,很实用的。

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓: 网页信息抓取，也称为网络爬虫或网页抓取，是通过自动化程序从互联网上获取大量数据的过程。在这个领域，Python语言因其强大的库支持和简洁的语法而成为首选工具。本教程将深入探讨如何在Jupyter环境中使用Python...

Python车牌识别、车牌抓取源代码: Python车牌识别、车牌抓取源程序，运行程序前需先导入cv2和numpy包。

python爬虫，如何抓取网页数据: python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，...

基于 python + RenderDoc 实现的渲染分析工具，以 html 形式展现方便阅读和分享: 【作品名称】：基于 python + RenderDoc 实现的渲染分析工具，以 html 形式展现方便阅读和分享。【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期...

一个简化的示例，使用Python的requests库来抓取网页内容，并使用BeautifulSoup库来解析HTML: 一个简化的示例，使用Python的requests库来抓取网页内容，并使用BeautifulSoup库来解析HTML 遵守robots.txt：在编写爬虫时，请确保你遵守目标网站的robots.txt文件规定。不要过度请求：避免在短时间内发送大量请求...

python邮箱抓取脚本: python邮箱抓取脚本，利用正则表达式从文本内容中抓取邮箱。

python小程序：数据抓取入库: 首先，数据抓取（Web Scraping）是通过自动化的方式从网页上提取大量信息的过程。Python提供了许多强大的库来支持这项工作，如BeautifulSoup、Scrapy等。BeautifulSoup库主要用于解析HTML和XML文档，可以方便地查找...

将doc文件批量转为docx文件，用python将doc文件批量转为docx文件: 用python将doc文件批量转为docx文件,用python将doc文件批量转为docx文件,

Python 爬虫源码，抓取豆瓣网图书信息: 在Python编程领域，爬虫是一种常见的技术，用于自动地从互联网上抓取大量数据。本项目专注于使用Python爬虫抓取豆瓣网上的图书信息，这是一个非常实用的技能，特别是对于数据分析、信息收集或者个人兴趣爱好者而言。...

python简单爬虫抓取网页内容实例: 一个简单的python示例，实现抓取嗅事百科首页内容，大家可以自行运行测试

python3.doc转docx.zip 全注释: 在这个场景中，我们有一个名为"python3.doc转docx.zip"的压缩包，它包含了一个全注释的Python脚本（doc.py）和一个图像文件（获取教程.关注小试编程.jpg），用于指导用户如何在Windows 10环境下批量将.doc格式的Word...

Python-抓取网络上共享的迅雷账户并且校验是否可用: 在Python编程领域，Web爬虫是一项重要的技术，用于自动化地从互联网上收集信息。本项目主要探讨如何利用Python抓取网络上共享的迅雷（Thunder）会员账户，并进行有效性校验。迅雷作为一款流行的下载工具，其会员账户...

使用Python实现windows下的抓包与解析: 在本文中，我们将深入探讨如何使用Python在Windows操作系统下实现数据包的抓取与解析。首先，我们需要了解的背景信息是，系统环境为Windows 7，选用Python 2.7而不是Python 3，主要是因为Scapy库在Python 2中的安装...

Python网页抓取讲解.pptx: Python 网页抓取是指使用 Python 语言从互联网上抓取数据的过程。该技术广泛应用于数据挖掘、机器学习、自然语言处理等领域。下面是 Python 网页抓取的详细讲解：一、为什么需要网页抓取网页抓取可以帮助我们从...

Python网页数据抓取以及表格的制作: 本主题将深入探讨如何使用Python进行网页数据抓取，并介绍如何利用这些数据创建表格，同时涉及CSS文件的生成和字体的修改。首先，网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup...

Python-使用python抓取微信公众号中的文章: 使用python抓取微信公众号中的文章

使用 Python 进行 Web 抓取实践：使用有效的 Python 技术从 Web 中提取高质量数据: 从介绍 Web 抓取基础知识和 Python 编程开始，您将涵盖一系列抓取技术，包括 requests、lxml、pyquery、Scrapy 和 Beautiful Soup。您还将掌握高级主题，例如安全 Web 处理、Web API、用于 Web 抓取的 Selenium、PDF...

Global site tag (gtag.js) - Google Analytics