`
zwhc
  • 浏览: 264927 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

python 入门,网页数据抓取

阅读更多
python 入门,网页数据抓取

正在研究这篇文章:
使用 Python 蛮力提取"网易读书"书籍内容
http://xanpeng.iteye.com/blog/816748

这个不错。正好入门学习使用。

1、其中用到 feedparser:
技巧:使用 Universal Feed Parser 驾驭 RSS
http://www.ibm.com/developerworks/cn/xml/x-tipufp.html
请访问 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。

feedparser 实际下载地址:
http://code.google.com/p/feedparser/downloads/list

2、另外,需要将文件加上 utf-8 的 bom 头,需要用到 python 写入十六进制字符:
http://linux.byexamples.com/archives/478/python-writing-binary-file/
python 写入十六进制字符
file.write("\x5F\x9D\x3E")
file.close()

3、因为要调试,文件的打开模式改成 w 方便一些。

import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc

class TagParser:
    def __init__(self, value):
        self.value = value
    def get(self, start, end):
        regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
        return re.findall(regx, self.value)

if __name__ == "__main__":
    baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
    f = open("test_01.txt", "w")
    f.write("\xef\xbb\xbf")
#    for ndx in range(0, 56):
    for ndx in range(0, 1):
        url = baseurl + str(ndx) + ".html"
        print "get content from " + url
        src = urllib.urlopen(url)
        text = src.read()

    f1= open("tmp_" + str(ndx) + ".txt", "w")
    f1.write(text)
    f1.close()

        encoding = enc(src.headers, text)[0]
   
        tp = TagParser(text)
   
        title = tp.get('h1 class="f26s tC"', 'h1')
        article = tp.get('p class="ti2em"', 'p')
   
        t = re.sub(r'</.+>', '\n', title[0])
        t = re.sub(r'<.+>', '\n', t)
        data = t
   
        c = ""
        for p in article:
            pt = re.sub(r'</p>', '\n', p)
            c += pt
        c = re.sub(r'<.+>', '\n', c)
        data += c
        data = data.decode(encoding)
        f.write(data.encode('utf-8', 'ignore'))
   
    f.close()


分享到:
评论

相关推荐

    Python 网页抓取入门:技术原理与实战指南

    Python,作为一种简单易学且功能强大的编程语言,非常适合用来编写爬虫程序,抓取网页内容。本文将详细介绍如何使用 Python 进行网页内容的抓取,包括技术原理和实战指南。 Python 网页抓取是一个涉及多个步骤的过程...

    Python 爬虫入门:使用 Requests 和 BeautifulSoup 实现基本网页数据抓取

    Python 爬虫入门:使用 Requests 和 BeautifulSoup 实现基本网页数据抓取

    手把手教你用python抓网页数据

    python抓取网页数据入门知识,资料来源于网上共享

    python入门教程大全.pdf 精心整理

    【Python入门教程】系列涵盖了多个基础到进阶的Python知识点,包括了数据导入、网络爬虫、基础语法、错误处理、面试准备、模板库、服务器配置、数据结构、类型操作、异常处理、字符串处理、爬虫开发、应用场景、编码...

    Python入门网络爬虫之精华版

    本篇文章《Python入门网络爬虫之精华版》主要介绍了Python网络爬虫的基础知识,从抓取、分析到存储的三个主要方面,以及如何应对一些常见的反爬虫机制。此外,还提及了Scrapy这一流行的爬虫框架,并提供了一个参考...

    基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar

    基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎...

    基于Python爬虫技术的网页数据抓取与分析研究.zip

    2. **网页数据抓取** - 请求与响应:使用requests库发送HTTP请求并处理响应,解析HTML或JSON格式的数据。 - 解析工具:BeautifulSoup库的使用,通过XPath或CSS选择器定位网页元素,提取所需信息。 - 动态网页处理...

    百度首页数据抓取:用Python快速入门网络爬虫

    在这个教程中,我们将以爬取百度首页为例,介绍如何使用Python语言进行简单的网页数据抓取。 本教程主要分为四个部分: 导入所需库:介绍了在爬虫程序中需要使用的Python库,包括requests库(用于向网站发送HTTP...

    Python 入门爬虫和数据分析实战

    在“Python入门爬虫和数据分析实战”中,我们将深入探讨如何利用Python进行网页抓取和数据处理,为初学者提供一条清晰的学习路径。 首先,让我们谈谈Python爬虫。Python提供了多种库来帮助我们实现网页抓取,如...

    python入门及网络爬虫参考书籍

    标题中的“python入门及网络爬虫参考书籍”表明这是一份关于学习Python编程语言和网络爬虫技术的资源集合。这些书籍将引导初学者逐步掌握Python的基础知识,并深入到网络爬虫的实践应用中。 首先,让我们来看看...

    基于股票大数据分析Python实战

    Python提供了多个强大的爬虫框架,如BeautifulSoup、Scrapy等,用于自动化地从互联网上抓取股票历史数据、新闻资讯以及公司公告等信息。学习如何编写高效的爬虫,理解HTTP协议和网页结构,以及如何处理反爬虫策略,...

    基于python抓取豆瓣电影TOP250的数据及进行分析.pdf

    本篇文档《基于python抓取豆瓣电影TOP250的数据及进行分析.pdf》首先强调了Python语言在数据分析、数据抓取和数据清洗等领域的应用,指出Python作为一门入门简单、应用广泛的编程语言,它的数据包和框架也越来越成熟...

    python抓取新浪微博数据

    在Python编程领域,爬虫是数据获取的重要工具,尤其对于社交媒体平台如新浪微博的数据挖掘,...希望这个简要的介绍对你入门Python爬虫有所帮助,记得遵守网站的爬虫政策,尊重数据所有权,合法合规地进行数据采集。

    零基础python入门--课件&代码(python入门+案例分析)

    【零基础Python入门--课件&代码】是专为初学者设计的Python学习资源,包含课件和实例代码,旨在帮助没有编程经验的人轻松迈入Python编程世界。本资源结合了博主的博客内容,提供了丰富的学习材料,帮助学习者系统...

    python抓取百度搜索的数据

    ### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...

    Python 入门爬虫和数据分析实战.zip

    总的来说,Python入门爬虫和数据分析实战的学习,不仅需要理解基本的编程概念,还要熟悉特定的Python库和工具。同时,实际操作和解决问题的能力至关重要。这个压缩包提供了一个很好的起点,通过实践和实验,你可以...

    全网最全Python课程,从入门到精通!.pdf

    - 第一阶段:Python入门 (1-115集) - 在这一阶段,主要讲解Python的基础语法,包括变量、数据类型、控制流、函数、类与对象等基础知识,适合完全没有编程经验的新手入门。 - 第二阶段:Python深入与提高 - 坦克...

    实验一 Python入门与实践1

    实验一“Python入门与实践1”旨在引导初学者深入理解Python编程语言,并掌握网络爬虫的基本技术和数据存储。以下是对实验涉及知识点的详细说明: 1. **Python编程语言**:Python是一种高级、通用的编程语言,以其...

    [图灵程序设计丛书].Python数据挖掘入门与实践_Python数据挖掘_

    这包括从各种数据源(如CSV文件、数据库、API或网页抓取)获取数据,并将其转化为可处理的格式。例如,Pandas库提供了DataFrame对象,使得数据操作变得极其方便,可以进行数据清洗、合并、筛选、排序等操作。 接...

Global site tag (gtag.js) - Google Analytics