python 入门,网页数据抓取
正在研究这篇文章:
使用 Python 蛮力提取"网易读书"书籍内容
http://xanpeng.iteye.com/blog/816748
这个不错。正好入门学习使用。
1、其中用到 feedparser:
技巧:使用 Universal Feed Parser 驾驭 RSS
http://www.ibm.com/developerworks/cn/xml/x-tipufp.html
请访问 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
feedparser 实际下载地址:
http://code.google.com/p/feedparser/downloads/list
2、另外,需要将文件加上 utf-8 的 bom 头,需要用到 python 写入十六进制字符:
http://linux.byexamples.com/archives/478/python-writing-binary-file/
python 写入十六进制字符
file.write("\x5F\x9D\x3E")
file.close()
3、因为要调试,文件的打开模式改成 w 方便一些。
import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc
class TagParser:
def __init__(self, value):
self.value = value
def get(self, start, end):
regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
return re.findall(regx, self.value)
if __name__ == "__main__":
baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
f = open("test_01.txt", "w")
f.write("\xef\xbb\xbf")
# for ndx in range(0, 56):
for ndx in range(0, 1):
url = baseurl + str(ndx) + ".html"
print "get content from " + url
src = urllib.urlopen(url)
text = src.read()
f1= open("tmp_" + str(ndx) + ".txt", "w")
f1.write(text)
f1.close()
encoding = enc(src.headers, text)[0]
tp = TagParser(text)
title = tp.get('h1 class="f26s tC"', 'h1')
article = tp.get('p class="ti2em"', 'p')
t = re.sub(r'</.+>', '\n', title[0])
t = re.sub(r'<.+>', '\n', t)
data = t
c = ""
for p in article:
pt = re.sub(r'</p>', '\n', p)
c += pt
c = re.sub(r'<.+>', '\n', c)
data += c
data = data.decode(encoding)
f.write(data.encode('utf-8', 'ignore'))
f.close()
分享到:
相关推荐
Python,作为一种简单易学且功能强大的编程语言,非常适合用来编写爬虫程序,抓取网页内容。本文将详细介绍如何使用 Python 进行网页内容的抓取,包括技术原理和实战指南。 Python 网页抓取是一个涉及多个步骤的过程...
Python 爬虫入门:使用 Requests 和 BeautifulSoup 实现基本网页数据抓取
python抓取网页数据入门知识,资料来源于网上共享
【Python入门教程】系列涵盖了多个基础到进阶的Python知识点,包括了数据导入、网络爬虫、基础语法、错误处理、面试准备、模板库、服务器配置、数据结构、类型操作、异常处理、字符串处理、爬虫开发、应用场景、编码...
本篇文章《Python入门网络爬虫之精华版》主要介绍了Python网络爬虫的基础知识,从抓取、分析到存储的三个主要方面,以及如何应对一些常见的反爬虫机制。此外,还提及了Scrapy这一流行的爬虫框架,并提供了一个参考...
基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎...
2. **网页数据抓取** - 请求与响应:使用requests库发送HTTP请求并处理响应,解析HTML或JSON格式的数据。 - 解析工具:BeautifulSoup库的使用,通过XPath或CSS选择器定位网页元素,提取所需信息。 - 动态网页处理...
在这个教程中,我们将以爬取百度首页为例,介绍如何使用Python语言进行简单的网页数据抓取。 本教程主要分为四个部分: 导入所需库:介绍了在爬虫程序中需要使用的Python库,包括requests库(用于向网站发送HTTP...
在“Python入门爬虫和数据分析实战”中,我们将深入探讨如何利用Python进行网页抓取和数据处理,为初学者提供一条清晰的学习路径。 首先,让我们谈谈Python爬虫。Python提供了多种库来帮助我们实现网页抓取,如...
标题中的“python入门及网络爬虫参考书籍”表明这是一份关于学习Python编程语言和网络爬虫技术的资源集合。这些书籍将引导初学者逐步掌握Python的基础知识,并深入到网络爬虫的实践应用中。 首先,让我们来看看...
Python提供了多个强大的爬虫框架,如BeautifulSoup、Scrapy等,用于自动化地从互联网上抓取股票历史数据、新闻资讯以及公司公告等信息。学习如何编写高效的爬虫,理解HTTP协议和网页结构,以及如何处理反爬虫策略,...
本篇文档《基于python抓取豆瓣电影TOP250的数据及进行分析.pdf》首先强调了Python语言在数据分析、数据抓取和数据清洗等领域的应用,指出Python作为一门入门简单、应用广泛的编程语言,它的数据包和框架也越来越成熟...
在Python编程领域,爬虫是数据获取的重要工具,尤其对于社交媒体平台如新浪微博的数据挖掘,...希望这个简要的介绍对你入门Python爬虫有所帮助,记得遵守网站的爬虫政策,尊重数据所有权,合法合规地进行数据采集。
【零基础Python入门--课件&代码】是专为初学者设计的Python学习资源,包含课件和实例代码,旨在帮助没有编程经验的人轻松迈入Python编程世界。本资源结合了博主的博客内容,提供了丰富的学习材料,帮助学习者系统...
### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...
总的来说,Python入门爬虫和数据分析实战的学习,不仅需要理解基本的编程概念,还要熟悉特定的Python库和工具。同时,实际操作和解决问题的能力至关重要。这个压缩包提供了一个很好的起点,通过实践和实验,你可以...
- 第一阶段:Python入门 (1-115集) - 在这一阶段,主要讲解Python的基础语法,包括变量、数据类型、控制流、函数、类与对象等基础知识,适合完全没有编程经验的新手入门。 - 第二阶段:Python深入与提高 - 坦克...
实验一“Python入门与实践1”旨在引导初学者深入理解Python编程语言,并掌握网络爬虫的基本技术和数据存储。以下是对实验涉及知识点的详细说明: 1. **Python编程语言**:Python是一种高级、通用的编程语言,以其...
这包括从各种数据源(如CSV文件、数据库、API或网页抓取)获取数据,并将其转化为可处理的格式。例如,Pandas库提供了DataFrame对象,使得数据操作变得极其方便,可以进行数据清洗、合并、筛选、排序等操作。 接...