`
zhimaruanjian
  • 浏览: 32653 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论

芝麻HTTP:TXT文本存储

 
阅读更多

将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据结构要求不高,追求方便第一的话,可以采用TXT文本存储。本节中,我们就来看下如何利用Python保存TXT文本文件。

1. 本节目标

本节中,我们要保存知乎上“发现”页面的“热门话题”部分,将其问题和答案统一保存成文本形式。

2. 基本实例

 

首先,可以用requests将网页源代码获取下来,然后使用pyquery解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下:

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
items = doc('.explore-tab .feed-item').items()
for item in items:
    question = item.find('h2').text()
    author = item.find('.author-link-line').text()
    answer = pq(item.find('.content').html()).text()
    file = open('explore.txt', 'a', encoding='utf-8')
    file.write('\n'.join([question, author, answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

 这里主要是为了演示文件保存的方式,因此requests异常处理部分在此省去。首先,用requests提取知乎的“发现”页面,然后将热门话题的问题、回答者、答案全文提取出来,然后利用Python提供的open()方法打开一个文本文件,获取一个文件操作对象,这里赋值为file,接着利用file对象的write()方法将提取的内容写入文件,最后调用close()方法将其关闭,这样抓取的内容即可成功写入文本中了。

运行程序,可以发现在本地生成了一个explore.txt文件,其内容如图所示。

 

这样热门问答的内容就被保存成文本形式了。

这里open()方法的第一个参数即要保存的目标文件名称,第二个参数为a,代表以追加方式写入到文本。另外,我们还指定了文件的编码为utf-8。最后,写入完成后,还需要调用close()方法来关闭文件对象。

3. 打开方式

在刚才的实例中,open()方法的第二个参数设置成了a,这样在每次写入文本时不会清空源文件,而是在文件末尾写入新的内容,这是一种文件打开方式。关于文件的打开方式,其实还有其他几种,这里简要介绍一下。

  • r:以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
  • rb:以二进制只读方式打开一个文件。文件指针将会放在文件的开头。
  • r+:以读写方式打开一个文件。文件指针将会放在文件的开头。
  • rb+:以二进制读写方式打开一个文件。文件指针将会放在文件的开头。
  • w:以写入方式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创建新文件。
  • wb:以二进制写入方式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创建新文件。
  • w+:以读写方式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创建新文件。
  • wb+:以二进制读写格式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创建新文件。
  • a:以追加方式打开一个文件。如果该文件已存在,文件指针将会放在文件结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,则创建新文件来写入。
  • ab:以二进制追加方式打开一个文件。如果该文件已存在,则文件指针将会放在文件结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,则创建新文件来写入。
  • a+:以读写方式打开一个文件。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,则创建新文件来读写。
  • ab+:以二进制追加方式打开一个文件。如果该文件已存在,则文件指针将会放在文件结尾。如果该文件不存在,则创建新文件用于读写。

4. 简化写法

另外,文件写入还有一种简写方法,那就是使用with as语法。在with控制块结束时,文件会自动关闭,所以就不需要再调用close()方法了。这种保存方式可以简写如下:

with open('explore.txt', 'a', encoding='utf-8') as file:
    file.write('\n'.join([question, author, answer]))
    file.write('\n' + '=' * 50 + '\n')

 如果想保存时将原文清空,那么可以将第二个参数改写为w,代码如下:

with open('explore.txt', 'w', encoding='utf-8') as file:
    file.write('\n'.join([question, author, answer]))
    file.write('\n' + '=' * 50 + '\n')

 上面便是利用Python将结果保存为TXT文件的方法,这种方法简单易用,操作高效,是一种最基本的保存数据的方法。

分享到:
评论

相关推荐

    Android应用源码之TXT文本阅读器源码-IT计算机-毕业设计.zip

    这篇文档将深入解析《Android应用源码之TXT文本阅读器源码》的开发细节,适合于正在学习Android应用开发的学生,尤其是那些准备进行毕业设计的同学。Android平台为开发者提供了丰富的API和工具,使得构建功能丰富的...

    AndroidTXT 文本阅读器源码-IT计算机-毕业设计.zip

    《AndroidTXT文本阅读器源码解析与学习指南》 在当今信息化时代,移动设备上的应用程序已经成为我们生活的重要组成部分。对于IT计算机专业的学生来说,毕业设计是提升技能、展示能力的关键环节。本文将深入剖析...

    Android Txt文本阅读器源码-IT计算机-毕业设计.zip

    这篇文档将深入解析《Android Txt文本阅读器源码》这一项目,这是一款针对学生毕业设计学习的Android应用程序。源码的分析将涵盖Android开发的基本概念、文本处理技术以及UI设计等多个方面,帮助初学者理解如何在...

    wpf富文本编辑器and源码

    点芝麻笔记2.0是一款基于WPF(Windows Presentation Foundation)技术构建的富文本编辑器,其源码的分享为开发者提供了一个深入理解WPF应用程序设计和优化的宝贵资源。相较于前一版本1.0,这款编辑器在重构过程中...

    BAT批处理脚本-文本操作-还原从QQ上复制下来的内容.cmd.zip

    ".cmd.txt" 的扩展名表示这是一个批处理脚本(.cmd),但由于安全考虑或防止意外执行,作者将其暂时改为了文本文件(.txt)。用户在使用前需要将文件扩展名改为原始的 ".cmd",这样Windows才能识别并执行它。 ...

    Android导入导出txt通讯录工具-IT计算机-毕业设计.zip

    在这个项目中,主要用到的是外部存储,因为通讯录通常是保存在外部存储的txt文件中。 4. **读取和解析TXT文件**:在Android中,可以使用`BufferedReader`或`Scanner`类来读取TXT文件。解析通讯录数据时,可能需要...

    BAT批处理脚本-文本操作-每6行拼接为一行.cmd.zip

    标题中的“BAT批处理脚本-文本操作-每6行拼接为一行.cmd.zip”表明这是一个关于批处理脚本(BAT)的压缩包,主要功能是实现文本操作,具体是将每6行文本合并成一行。这个脚本可能是用于处理大量文本数据,比如日志...

    BAT批处理脚本-文本操作-多行文本拼接成一行.cmd.zip

    在"多行文本拼接成一行.cmd.txt"脚本中,可能包含这样的逻辑:先使用`TYPE`命令读取多行文本文件,然后通过某种方式(如`FINDSTR`或`FOR /F`循环)将这些行合并成一个字符串,最后利用`ECHO`命令将结果写入一个新的...

    BAT批处理脚本-文本操作-文本内容乱序排列.zip

    3. `SET`:用于设置环境变量,这里可能用来存储文本行。 4. `RANDOM`:生成随机数,配合其他命令可以实现乱序效果。 5. `ECHO`:输出信息到控制台或文件。 6. `FOR`循环:遍历文件内容并处理每一行。 7. `COPY`或`...

    微信小程序开发-面包旅行:界面设计,文本展示案例源码.zip

    在微信小程序开发中,"面包旅行:界面设计,文本展示案例源码.zip"是一个非常有价值的资源,它提供了关于如何在微信小程序中实现精致界面设计和有效文本展示的实例。这个压缩包包含了一个实际的项目文件,可以让...

    BAT批处理脚本-文本操作-复制文本内容.zip

    另外,由于脚本文件是以文本格式存储的,所以存在被篡改的风险,对于涉及敏感数据的操作,应采取必要的安全措施,如加密、权限控制等。 总之,BAT批处理脚本配合VBScript可以实现丰富的文本操作功能,包括复制文本...

    毕业论文设计-IT计算机-文本编辑器.zip

    在本毕业论文设计中,我们将深入探讨一个基于Java开发的文本编辑器项目。这个文本编辑器不仅是一个基础的文本处理工具,还具有丰富的功能和良好的用户界面,旨在提高程序员和其他用户的文本编辑体验。以下是该设计...

    BAT批处理脚本-文本操作-文本内容互换.bat.zip

    在给定的压缩包"BAT批处理脚本-文本操作-文本内容互换.bat.zip"中,包含了一个名为"文本内容互换.bat.txt"的文件,这个文件实际上是一个批处理脚本,但为了避免误执行,已经将其扩展名更改为.txt。使用时,你需要...

    BAT批处理脚本-文本操作-将文本中的所有内容无规则打乱顺序排列.zip

    3. **文本处理**:批处理脚本可能利用`for /f`命令来逐行读取文本文件,并存储在变量中。然后,通过随机数排序这些变量,达到打乱文本内容的目的。可能还会用到`copy`或`ren`命令来创建新的文本文件并保存打乱后的...

    BAT批处理脚本-合并文本.zip

    它基于DOS命令行环境,使用批处理文件(扩展名为.bat或.cmd)来存储一系列命令,然后一次性执行这些命令,大大提高了工作效率。这个“BAT批处理脚本-合并文本.zip”文件包含一个名为“合并文本.bat”的批处理脚本,...

    芝麻开门博客网.zip

    《芝麻开门博客网.zip》是一个压缩包文件,其主要包含了一系列与Java相关的Servlet类文件,这些文件是构建一个基于Web的应用程序所必需的部分。Servlet是Java编程语言中用于扩展服务器功能的一种技术,常用于处理...

    BAT批处理脚本-文本操作-反序列出文本的每行内容.cmd.zip

    根据压缩包子文件的文件名称“反序列出文本的每行内容.cmd.txt”,我们可以推测这个批处理脚本的目的是读取一个文本文件,并将文件中的所有行按逆序显示。这在某些数据处理或测试场景中可能会非常有用,例如,当需要...

    BAT批处理脚本-文本操作-用指定字符替换指定内容.cmd.zip

    首先,批处理脚本的基本结构是使用DOS命令(如COPY, DEL, MKDIR等)编写的一系列命令行语句,存储在一个扩展名为".cmd"或".bat"的文本文件中。在描述中提到,由于安全考虑,文件被暂时更改为".txt"格式,用户在使用...

    BAT批处理脚本-文本操作-过滤相同行内容.cmd.zip

    脚本可能会将文本文件内容临时存储到变量中,或者写入新的文件。 3. **行比较与过滤**:脚本的核心部分可能是比较文本文件的每行,去除重复内容。这可能涉及到对文本行的读取、比较、以及写入新文件的过程。可能...

    Excel-VBA宏编程实例源代码-判断文本的完整.zip

    例如,如果我们要检查的文本存储在一个单元格中,我们可以声明一个字符串变量来保存这个单元格的值。 3. **字符串操作函数**:VBA提供了丰富的字符串函数,如Len、Left、Right、Mid等,用于处理和分析文本。在这个...

Global site tag (gtag.js) - Google Analytics