`

python编码错误小结以及保存方式修改

阅读更多

我用的是python2.6。

学习python写爬虫的时候,一般都会用到一个Demo-------

这个Dmoe在学习的时候确实是非常好的例子,但是我们可能需要对它进行修改,这就会出现一些问题。

再对demo进行修改的时候发现了一些编码问题下面就发出来做个记录。 python UnicodeEncodeError:'ascii'code can't encode characters in position 23-26:ordinal not in range(128) 这是一个编码错误。

我的错误代码具体如下:

 

item['intro'] = self._get_xpath_text(hxs, u'//td[contains(text(), "企业介绍")]/preceding-sibling::td/strong/text()')这样写就会发生下面的错误

 

这个错误我首先在dmoz_spider.py的文件头部加入了:

# -*- coding:utf-8 -*-

发现没有任何效果。

最后通过在下面的位置加入代码问题就解决了。

这部分一定要在前面加入一句引用:

import sys

编码问题得到解决了

 

 

在原例子中把爬取得内容保存成json格式,但是我们平时需要把内容保存到数据中,一般是mysql或者excel中。

在阅读了一些文献后发现可以这么解决,

在进行爬虫的时候命令修改为:

scrapy crawl dmoz -o items.xml -t xml

这样文件会直接保存成一个XML文件,再调用mysql或者excel都可以完全的导入进去。

  • 大小: 397 Bytes
  • 大小: 7.5 KB
  • 大小: 3.1 KB
0
4
分享到:
评论

相关推荐

    爬虫基础课件

    #### 六、小结 本课程材料涵盖了Python爬虫的基础知识,包括但不限于HTTP协议的理解、使用Python进行网络请求的方法以及如何处理和解析返回的数据。对于初学者来说,这些内容都是构建一个简单爬虫所必需的基础。...

    Beautiful_Soup中文文档.pdf

    它还提供了快速开始的示例和常见问题的解答(Troubleshooting),帮助用户解决在使用过程中可能遇到的编码错误或数据丢失等问题。 文档中还提到了BeautifulSoup的高级特性,比如: - 生成器(Generators):为处理...

    2021-2022计算机二级等级考试试题及答案No.3999.docx

    - **答案解析**:ROM是计算机内存中的一类,其中存储的信息只能读取而不能更改,因此本题答案为正确。 #### 题目22:完全二叉树的叶子节点数量计算 - **知识点**:完全二叉树的性质。 - **答案解析**:对于完全...

    wxpython实战中文版(wxPython in Action)

    ##### 4.7 本章小结 - **重点回顾**:了解PyCrust及其相关模块的使用方法,提升开发效率。 #### 五、创建你的蓝图 ##### 5.1 重构如何帮我改进我的代码? - **重构的意义**:改善现有代码结构,提高代码质量而不...

    特易通国产对讲机MD580 v1.0中英写频软件

    特易通国产对讲机MD580 v1.0中英写频软件

    基于springboot框架的在线考试管理系统的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    使用旧方法对在线考试系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在在线考试系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的在线考试系统对字典管理、试卷表管理、试题表管理、考试记录表管理、答题详情表管理、错题表管理、公告管理、课程管理、课程收藏管理、课程留言管理、老师管理、学生管理、管理员管理等进行集中化处理。经过前面自己查阅的网络知识,加上自己在学校课堂上学习的知识,决定开发系统选择B/S模式这种高效率的模式完成系统功能开发。这种模式让操作员基于浏览器的方式进行网站访问,采用的主流的Java语言这种面向对象的语言进行在线考试系统程序的开发,在数据库的选择上面,选择功能强大的Mysql数据库进行数据的存放操作。在线考试系统的开发让用户查看试卷信息变得容易,让管理员高效管理试卷信息。 关键词:在线考试系统;试卷信息;公告;自助资讯

    数据库_动态注册_数据源切换_自动化SQL_元数据读写_结构_1741869171.zip

    数据结构学习

    操作系统_计算机教育_笔记共享_职业发展指导_1741864515.zip

    操作系统学习

    数据结构_CC_课程资料_教学用途_1741867406.zip

    数据结构学习

    特易通国产对讲机TYT258_V1.09中英写频软件

    特易通国产对讲机TYT258_V1.09中英写频软件

    电脑网络图标消失了怎么办?(Windows电脑网络或WiFi图标消失,如何找回?)-CSDN博客.pdf

    电脑网络图标消失了怎么办?(Windows电脑网络或WiFi图标消失,如何找回?)-CSDN博客

    Flask 基本用户身份验证

    user is unauthorized

    Swift-SpeechSynthesizer

    Swift-SpeechSynthesizer

    深度学习图像识别技术中CNN模型的优化及其在医疗、安防与自动驾驶中的应用

    内容概要:本文聚焦于利用深度学习改善卷积神经网络(CNN)在图像识别上的效果。首先介绍了深度学习和图像识别的历史背景和技术现状,并重点讨论了CNN的特点与发展。然后阐述了针对现有CNN模型存在的局限所做出的技术改良,包括架构设计引入残差连接和多尺度特征融合,训练策略上采取自适应学习率调整与数据增强措施,最终构建出了更具竞争力的新模型。该模型经过在CIFAR-10与ImageNet两大数据集上严格的对比测试显示,相较于同类模型有了明显的性能增长,准确率分别提升至95.2%及92.7%,训练耗时减少15%,并且模型体积更轻巧利于部署。文中也提及了图像识别具体案例研究,在医疗图像诊断、安防智能监控系统以及无人驾驶汽车环境感知环节有着重要贡献。 适用人群:对图像识别技术、深度学习感兴趣的科研工作者、高校师生以及从事相关产业技术研发的专业人士。 使用场景及目标:可用于提高各类需要精确快速定位或辨认物体应用场景下系统的运行效能;为涉及计算机视觉业务的企业提供创新性解决方案。 其他说明:文章提到模型仍然存在一些有待解决的问题比如更好的跨域迁移能力和更强的数据安全保护等方面,指明了未来的研发路径,对于

    特易通国产对讲机TC-2000S v1.0中英写频软件

    特易通国产对讲机TC-2000S v1.0中英写频软件

    卓易达ZYD-Z888中文写频软件改频率软件V1.37

    卓易达ZYD-Z888中文写频软件改频率软件V1.37

    基于python射击成绩管理系统 框架 vs2022 + python + django + mysql

    基于python射击成绩管理系统 框架 vs2022 + python + django model(orm) + mysql 管理员用户密码 admin 123456 普通用户 qqq 123456 模块介绍 管理员 登陆模块 比赛管理 用户管理 成绩管理 测试页面 密码重置 退出模块 普通用户 比赛查询 成绩查询 密码重置 退出模块

    algorithmzuo_algorithm-journey_1741867504.zip

    数据结构学习

    KaihongOS-System-Component 4.1.2.17(RT00E000C000M68A).part3.rar

    KaihongOS_System_Component 4.1.2.17(RT00E000C000M68A).part3.rar 请勿下载,请联系对应销售获取。

    软件开发:全面解析需求规格说明书模板的应用与编写

    内容概要:本文档旨在详细介绍如何编写一份详尽的需求规格说明书,涵盖了从产品描述、需求概述到功能细节等多个方面的规范要求。首先,文档明确编写目的、定义产品相关信息,确保读者能够迅速把握文档主旨并理解所讨论的产品背景。其次,在需求概述环节不仅介绍了产品基本功能和发展愿景,还明确了产品运行所需的硬软件环境及其限制。紧接着,功能需求部分则逐一罗列并深入解读各个具体功能点,同时注明未予实现的功能及背后原因,确保后续工作中有据可依。最后,在附录和其他可选项如数据描述、性能和运行需求等章节中继续补充,完善文档信息链,为技术人员提供坚实依据。 适合人群:面向软件开发团队成员(尤其是产品经理、分析师和技术主管),有助于他们高效梳理业务需求并向团队传达清晰的指导方针。 使用场景及目标:用于启动阶段确立项目的范围边界,辅助项目管理者规划任务分工;协助开发者深入理解和遵循既定规则开展编码作业,确保成品符合用户期望值。 阅读建议:鉴于本手册涉及多个层面的规定细则,请使用者先泛读后精读感兴趣的重点章节,同时积极与实际工作相结合,逐步掌握需求采集、整理直至呈现全过程的技术要点和实战技巧。

Global site tag (gtag.js) - Google Analytics