`
fancyboy2050
  • 浏览: 240939 次
  • 性别: Icon_minigender_1
  • 来自: 皇城根儿下
社区版块
存档分类
最新评论

python抓取小说

阅读更多
刚学,使用python3,安装了BeautifulSoup,一个Python library,解析html
路径:http://www.crummy.com/software/BeautifulSoup/
from html.parser import HTMLParser
from bs4 import BeautifulSoup as bs
import urllib.request
import re

def parsechapter(url, out):
    data = urllib.request.urlopen(url)
    dataDecode = data.read().decode('utf-8')
    data.close()
    soup = bs(dataDecode)
    for content in soup.findAll(id="chapterContent"):
        for nc in content.findAll("p"):
            print(nc.span.previousSibling, file=out)
try
    a_file = open("test.txt", mode="a", encoding="utf-8")    
    showchapter_url = 'http://book.zongheng.com/showchapter/189169.html'
    chapterData = urllib.request.urlopen(showchapter_url)
    chapterDataDecode = chapterData.read().decode('utf-8')
    chapterData.close()

    chapterDataSoup = bs(chapterDataDecode)
    for chapters in chapterDataSoup.findAll("div", attrs={'class':"booklist"}):
        for chapter in chapters.findAll("a"):
            print(chapter.get_text(), file=a_file)
            parsechapter(chapter['href'], a_file)
except IOError:
    print('file error!')
finally:
    if 'a_file' in locals():
        a_file.close()
分享到:
评论

相关推荐

    Python爬虫抓取小说网站的基本方法

    本教程将介绍如何使用 Python 的 BeautifulSoup 框架来抓取小说网站,并将数据存储到本地或数据库中。 首先,我们需要了解爬虫的基础知识。Python 提供了多个爬虫框架,如 BeautifulSoup、Scrapy 和 Requests。...

    不到200行Python代码爬个小说网站源码.rar

    在Python编程领域,网络爬虫是一项非常实用的技术,它能够帮助我们自动地抓取网页信息,包括小说网站的源码。本项目名为“不到200行Python代码爬个小说网站源码”,其核心目标是利用简洁的代码实现对小说网站的爬取...

    Python爬取小说网站的小说

    Python是一种广泛应用于Web开发、数据分析、自动化任务等领域的高级编程语言,尤其在数据抓取(网络爬虫)方面,Python表现出强大的能力。本教程将详细讲解如何使用Python来爬取小说网站上的小说内容。 首先,我们...

    Python爬取小说源代码,Python实现小说自由

    Python爬虫技术是数据获取的...通过实践这个项目,你可以深入了解Python爬虫的基本流程,提升网络数据抓取的能力。同时,这也是对Python网络编程和HTML解析能力的一次锻炼,有助于在实际工作中解决类似的数据获取问题。

    python小工具-摸鱼神器-小说阅读器

    在实际应用中,开发者可能使用了Python的`tkinter`或`PyQt`等图形用户界面库来构建阅读器的界面,利用`requests`或`BeautifulSoup`等库抓取网络上的小说资源,以及`pickle`或`json`等模块来处理数据存储。...

    Python实现的番茄网小说下载器源代码,利用requests库采集和parsel库进行解析,然后用用tkinter做了UI

    本项目"Python实现的番茄网小说下载器源代码"就是一个很好的实例,它利用了requests库进行网络请求,Parsel库处理HTML解析,以及Tkinter库构建图形用户界面(GUI)。接下来,我们将深入探讨这三个关键知识点。 首先...

    Python制作小说软件,搜索收藏查询功能齐全+拿去自用.zip

    1. **搜索功能**:通常通过API接口或者爬虫技术,从网络上抓取小说信息,然后根据用户输入的关键字进行匹配,展示搜索结果。 2. **收藏功能**:可能使用数据库技术,如SQLite或MySQL,为每个用户创建一个收藏列表,...

    基于Python与Shell语言的FetchNovels小说抓取设计源码

    该项目是一款基于Python与Shell语言的FetchNovels小说抓取设计源码,包含105个文件,其中包括95个Python源代码文件、3个ReStructuredText文件、1个Git忽略文件、1个许可证文件、1...该系统旨在从互联网上抓取小说资源。

    python,爬虫代码,可以抓取挺多,像小说啥的

    本篇将详细介绍Python爬虫的基本原理、常用库以及如何构建一个简单的爬虫来抓取小说数据。 一、Python爬虫基础知识 1. 请求与响应:Python爬虫工作原理基于HTTP协议,通过发送请求(Request)到服务器,然后接收...

    Python大作业-网络爬虫项目.zip

    6. **爬小说**:此项目可能涉及爬取在线小说平台的内容,如起点中文网,抓取章节并保存成文本文件,让学生掌握动态加载页面的处理方法和长篇内容的抓取技巧。 7. **Python爬wzry全英雄皮肤**:王者荣耀(WZRY)是...

    python-小说网站的爬虫项目

    Python小说网站爬虫项目是一个利用Python编程语言进行网络数据抓取的实践操作,旨在从特定的小说网站上自动化地下载并整理小说内容。这个项目涵盖了网络爬虫的基础知识,包括HTTP请求、HTML解析、数据存储等多个方面...

    Python爬取小说并存入到mysql数据库源代码

    本项目将向你展示如何使用Python编写一个网络爬虫,以获取在线小说的内容,并将其存储到MySQL数据库中。首先,我们需要安装必要的库,如requests用于发送HTTP请求,BeautifulSoup用于解析HTML文档,以及pymysql用于...

Global site tag (gtag.js) - Google Analytics