刚学,使用python3,安装了BeautifulSoup,一个Python library,解析html
路径:
http://www.crummy.com/software/BeautifulSoup/
from html.parser import HTMLParser
from bs4 import BeautifulSoup as bs
import urllib.request
import re
def parsechapter(url, out):
data = urllib.request.urlopen(url)
dataDecode = data.read().decode('utf-8')
data.close()
soup = bs(dataDecode)
for content in soup.findAll(id="chapterContent"):
for nc in content.findAll("p"):
print(nc.span.previousSibling, file=out)
try
a_file = open("test.txt", mode="a", encoding="utf-8")
showchapter_url = 'http://book.zongheng.com/showchapter/189169.html'
chapterData = urllib.request.urlopen(showchapter_url)
chapterDataDecode = chapterData.read().decode('utf-8')
chapterData.close()
chapterDataSoup = bs(chapterDataDecode)
for chapters in chapterDataSoup.findAll("div", attrs={'class':"booklist"}):
for chapter in chapters.findAll("a"):
print(chapter.get_text(), file=a_file)
parsechapter(chapter['href'], a_file)
except IOError:
print('file error!')
finally:
if 'a_file' in locals():
a_file.close()
分享到:
相关推荐
本教程将介绍如何使用 Python 的 BeautifulSoup 框架来抓取小说网站,并将数据存储到本地或数据库中。 首先,我们需要了解爬虫的基础知识。Python 提供了多个爬虫框架,如 BeautifulSoup、Scrapy 和 Requests。...
在Python编程领域,网络爬虫是一项非常实用的技术,它能够帮助我们自动地抓取网页信息,包括小说网站的源码。本项目名为“不到200行Python代码爬个小说网站源码”,其核心目标是利用简洁的代码实现对小说网站的爬取...
Python是一种广泛应用于Web开发、数据分析、自动化任务等领域的高级编程语言,尤其在数据抓取(网络爬虫)方面,Python表现出强大的能力。本教程将详细讲解如何使用Python来爬取小说网站上的小说内容。 首先,我们...
Python爬虫技术是数据获取的...通过实践这个项目,你可以深入了解Python爬虫的基本流程,提升网络数据抓取的能力。同时,这也是对Python网络编程和HTML解析能力的一次锻炼,有助于在实际工作中解决类似的数据获取问题。
本项目"Python实现的番茄网小说下载器源代码"就是一个很好的实例,它利用了requests库进行网络请求,Parsel库处理HTML解析,以及Tkinter库构建图形用户界面(GUI)。接下来,我们将深入探讨这三个关键知识点。 首先...
1. **搜索功能**:通常通过API接口或者爬虫技术,从网络上抓取小说信息,然后根据用户输入的关键字进行匹配,展示搜索结果。 2. **收藏功能**:可能使用数据库技术,如SQLite或MySQL,为每个用户创建一个收藏列表,...
在实际应用中,开发者可能使用了Python的`tkinter`或`PyQt`等图形用户界面库来构建阅读器的界面,利用`requests`或`BeautifulSoup`等库抓取网络上的小说资源,以及`pickle`或`json`等模块来处理数据存储。...
该项目是一款基于Python与Shell语言的FetchNovels小说抓取设计源码,包含105个文件,其中包括95个Python源代码文件、3个ReStructuredText文件、1个Git忽略文件、1个许可证文件、1...该系统旨在从互联网上抓取小说资源。
本篇将详细介绍Python爬虫的基本原理、常用库以及如何构建一个简单的爬虫来抓取小说数据。 一、Python爬虫基础知识 1. 请求与响应:Python爬虫工作原理基于HTTP协议,通过发送请求(Request)到服务器,然后接收...
6. **爬小说**:此项目可能涉及爬取在线小说平台的内容,如起点中文网,抓取章节并保存成文本文件,让学生掌握动态加载页面的处理方法和长篇内容的抓取技巧。 7. **Python爬wzry全英雄皮肤**:王者荣耀(WZRY)是...
Python小说网站爬虫项目是一个利用Python编程语言进行网络数据抓取的实践操作,旨在从特定的小说网站上自动化地下载并整理小说内容。这个项目涵盖了网络爬虫的基础知识,包括HTTP请求、HTML解析、数据存储等多个方面...
本项目将向你展示如何使用Python编写一个网络爬虫,以获取在线小说的内容,并将其存储到MySQL数据库中。首先,我们需要安装必要的库,如requests用于发送HTTP请求,BeautifulSoup用于解析HTML文档,以及pymysql用于...