python抓取小说 - 伊人梦醉 - ITeye博客

`

fancyboy2050

浏览: 241808 次
性别:
来自: 皇城根儿下

最近访客更多访客>>

lindow

飞天奔月

fan0128

brucelearnen

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

悦悦余音：楼主妙笔生花的文章解决了我的问题
hessian http response code:411
297434791：返回对象有警告··返回String就没警告了，什么原因
hessian异常
lsjinpeng：这个中文乱码怎么弄啊？
Kaptcha使用
zcs540061627： wangjian95 写道我也遇到了这个问题 2012-7-1 ...
hessian异常
wangjian95：哈哈，哥刚试了，数组是可以的，嘎嘎
hessian异常

python抓取小说

博客分类：

python

阅读更多

刚学，使用python3，安装了BeautifulSoup，一个Python library，解析html
路径：http://www.crummy.com/software/BeautifulSoup/

from html.parser import HTMLParser
from bs4 import BeautifulSoup as bs
import urllib.request
import re

def parsechapter(url, out):
    data = urllib.request.urlopen(url)
    dataDecode = data.read().decode('utf-8')
    data.close()
    soup = bs(dataDecode)
    for content in soup.findAll(id="chapterContent"):
        for nc in content.findAll("p"):
            print(nc.span.previousSibling, file=out)
try
    a_file = open("test.txt", mode="a", encoding="utf-8")    
    showchapter_url = 'http://book.zongheng.com/showchapter/189169.html'
    chapterData = urllib.request.urlopen(showchapter_url)
    chapterDataDecode = chapterData.read().decode('utf-8')
    chapterData.close()

    chapterDataSoup = bs(chapterDataDecode)
    for chapters in chapterDataSoup.findAll("div", attrs={'class':"booklist"}):
        for chapter in chapters.findAll("a"):
            print(chapter.get_text(), file=a_file)
            parsechapter(chapter['href'], a_file)
except IOError:
    print('file error!')
finally:
    if 'a_file' in locals():
        a_file.close()

分享到：

spring mvc annotation-driven | hessian spring overloadEnabled

2012-11-07 14:29
浏览 1736
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python爬虫抓取小说网站的基本方法: 本教程将介绍如何使用 Python 的 BeautifulSoup 框架来抓取小说网站，并将数据存储到本地或数据库中。首先，我们需要了解爬虫的基础知识。Python 提供了多个爬虫框架，如 BeautifulSoup、Scrapy 和 Requests。...

不到200行Python代码爬个小说网站源码.rar: 在Python编程领域，网络爬虫是一项非常实用的技术，它能够帮助我们自动地抓取网页信息，包括小说网站的源码。本项目名为“不到200行Python代码爬个小说网站源码”，其核心目标是利用简洁的代码实现对小说网站的爬取...

Python爬取小说网站的小说: Python是一种广泛应用于Web开发、数据分析、自动化任务等领域的高级编程语言，尤其在数据抓取（网络爬虫）方面，Python表现出强大的能力。本教程将详细讲解如何使用Python来爬取小说网站上的小说内容。首先，我们...

Python爬取小说源代码，Python实现小说自由: Python爬虫技术是数据获取的...通过实践这个项目，你可以深入了解Python爬虫的基本流程，提升网络数据抓取的能力。同时，这也是对Python网络编程和HTML解析能力的一次锻炼，有助于在实际工作中解决类似的数据获取问题。

基于Python与Shell语言的FetchNovels小说抓取设计源码: 在具体实现上，FetchNovels小说抓取系统能够从互联网上抓取小说资源。这意味着系统需要具备强大的网络请求处理能力，能够高效地访问和处理各种小说网站的HTML页面。同时，系统还要具备强大的文本解析能力，能够准确...

Python实现的番茄网小说下载器源代码，利用requests库采集和parsel库进行解析，然后用用tkinter做了UI: 本项目"Python实现的番茄网小说下载器源代码"就是一个很好的实例，它利用了requests库进行网络请求，Parsel库处理HTML解析，以及Tkinter库构建图形用户界面（GUI）。接下来，我们将深入探讨这三个关键知识点。首先...

python下载小说源代码: Python下载小说源代码的知识点可以详细阐述以下内容： 1. Python编程语言概述：Python是一门高级编程语言，以其简洁明了的语法和强大的功能而受到开发者们的青睐。它支持多种编程范式，包括面向对象、命令式、函数...

Python制作小说软件，搜索收藏查询功能齐全+拿去自用.zip: 1. **搜索功能**：通常通过API接口或者爬虫技术，从网络上抓取小说信息，然后根据用户输入的关键字进行匹配，展示搜索结果。 2. **收藏功能**：可能使用数据库技术，如SQLite或MySQL，为每个用户创建一个收藏列表，...

python小工具-摸鱼神器-小说阅读器: 在实际应用中，开发者可能使用了Python的`tkinter`或`PyQt`等图形用户界面库来构建阅读器的界面，利用`requests`或`BeautifulSoup`等库抓取网络上的小说资源，以及`pickle`或`json`等模块来处理数据存储。...

python,爬虫代码，可以抓取挺多，像小说啥的: 本篇将详细介绍Python爬虫的基本原理、常用库以及如何构建一个简单的爬虫来抓取小说数据。一、Python爬虫基础知识 1. 请求与响应：Python爬虫工作原理基于HTTP协议，通过发送请求（Request）到服务器，然后接收...

Python大作业-网络爬虫项目.zip: 6. **爬小说**：此项目可能涉及爬取在线小说平台的内容，如起点中文网，抓取章节并保存成文本文件，让学生掌握动态加载页面的处理方法和长篇内容的抓取技巧。 7. **Python爬wzry全英雄皮肤**：王者荣耀（WZRY）是...

python-小说网站的爬虫项目: Python小说网站爬虫项目是一个利用Python编程语言进行网络数据抓取的实践操作，旨在从特定的小说网站上自动化地下载并整理小说内容。这个项目涵盖了网络爬虫的基础知识，包括HTTP请求、HTML解析、数据存储等多个方面...

Global site tag (gtag.js) - Google Analytics