应该在昨天就写出这篇文章,偷懒了,直到现在才敲起键盘
这两天最主要的工作就是实现抓取文章,提取正文,以及存储到数据库这样一个过程。
关于抓取文章,提取正文,主要是应用了 beautifulsoup这样一个第三方的解析包来做。鼓捣了一阵还算顺利拿下来了一个网站的主页文章。
关于 beautifulsoup 的性能还没做测试,至少目前用不到,以后需要的再说。
遇到一个很头疼的问题就是关于中文编码的问题。关于中文编码的问题在过程中遇到了两个门槛。
1, 我把取到的中文放到了一个dict对象content里面面。然后就是做测试做了一个
content.items()
。输出的是编码,而不是汉字。当时就跟纳闷,一顿google,没有找到直接对这个问题做解释的,倒是对python的unicode编码问题了解了一些。但是如果直接
print content.values()[0]
的话还是能够正确输出中文。我的理解可能是因为直接使用
content.items()
的时候python并没有像使用的时候做编码的转化。所以直接输出的是编码字符。而且自此后我在python module的第一行都加上了# -*- coding: utf-8 -*-
2, 接着遇到的问题就是把中文存到mysql数据库的问题。导致有问题的是多方面的,我把整个过程写下来,希望对其他人有些许帮助
在往数据库写数据的时候python代码报错,显示latin1无法解析某某位置的码。我第一个反应是mysql数据库的编码问题。(在此插一句,我用的mysql是免安装版本的,在使用过程中遇到了各种问题,各种。。。建议初学者还是能选择mysql安装版。)
查看schema,果然是latin1的编码,遂更改了schema和各个table的编码到utf8
再试,一样的错误。。开始有点崩溃。又一顿google,得出了要更改MySQLdb源代码的建议。个人觉得这种方法有可能解决问题,但未必是从根本上来解决。除非是真没辙了才会考虑这种方案。
但我报错的代码和那个帖子位置不一样,我还是试着在那行代码hardcode了"utf-8"再试,代码不再报错,可以插入数据库。但中文都是乱码。再次崩溃
此时我想起在初始化dbconnection的时候没有设置charset值。遂又set为"utf-8",再试,再次报错。。。又一顿整,意识到应该改为"utf8",代码不再报错,另外我把hardcode的那行代码改回去,代码也不再报错,可以插入到数据库,不过中文依然是乱码。很崩溃。
这时我就开始怀疑这个免安装版本的mysql有问题。网上又下载了安装版的。一顿折腾,错误依旧。所以能改的地方都改了,就是乱码。开始绝望了。。
我开始仔细看table的导出的sql create statement,终于让我注意到了一个细节。
原来因为我最先的时候数据库编码默认为latin1,结果在建立表的时候,mysql自动为每一列也加上了charset latin1。也就是说虽然我更改了schema和table的编码到utf8但每一列的编码依旧是latin1。马上全部改为utf8。再试,终于能在table里看到熟悉的方块字了。。。
自此,中文编码的问题算是告了一个段落了。
后来想了想,如果一开始我就是用的mysql安装版的话,它会自动提示选择什么默认的编码,我当然会选择utf8,这样的话,中文编码的问题解决起来就不会耗费这么大的精力了。
不过我相信一句话,努力不会白费的,虽然耗费了很多时间,但学到的东西也更多,也有了更多的积累。
以下是我参考的的文章:感谢他们的经验分享
http://bbs.chinaunix.net/archiver/tid-1163613.html
http://blog.csdn.net/fengye515/archive/2009/02/14/3890894.aspx
分享到:
相关推荐
给定的文件"Pyrebase-3.0.14-py3-none-any.whl"是一个wheel文件,它是Python的二进制分发格式,可以直接安装。在命令行中,你可以使用以下命令来安装: ```bash pip install Pyrebase-3.0.14-py3-none-any.whl ``` ...
- 使用`windows/meterpreter/reverse_tcp`payload,这是一个非常强大的反向TCP连接payload。 - 通过`-e x86/shikata_ga_nai`指定使用了编码器,`shikata_ga_nai`是一种高级编码技术,可以有效绕过大多数防病毒软件。...
总的来说,这个项目利用了Python的Django框架和JavaScript技术,构建了一个包含Web端和Android端的租车应用。Web端利用Django的MVC模式进行开发,依赖simplejson处理JSON数据,利用django-pagination实现分页功能,...
Requests 是一个功能强大且易于使用的 Python HTTP 库,它极大地简化了网络请求的处理过程。无论是初学者还是经验丰富的开发者,都可以利用 Requests 快速实现 Web 请求的发送和响应数据的处理。希望本文对您理解和...
总结来说,MobSF是一个全面的移动应用安全测试工具,结合了静态和动态分析技术,能够深入检查应用的各个方面,确保代码的安全性和合规性。对于开发者和安全专家来说,理解和使用MobSF源代码有助于提升移动应用的安全...
例如,在Python中,一个模块可能是一个`.py`文件,而在JavaScript中,模块可能指的是`.js`文件或者使用ES6模块语法定义的代码块。 获取模块中的图标通常涉及到以下几个步骤: 1. **资源定位**:确定图标资源的位置...
不过,从一般的毕业设计或课程设计来看,可能涉及到的标签可能有:Java、Python、C++、Web开发、Android、iOS、数据库(MySQL、Oracle、SQL Server)、前端框架(React、Vue、Angular)、后端框架(Spring Boot、...
MapBookmarkSite作为一个Python驱动的地图书签管理工具,不仅展示了Python在Web开发中的强大能力,还体现了地图服务在日常生活中的广泛用途。随着技术的发展,我们可以期待更多创新功能的加入,以提升用户体验和实用...
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它采用完全独立于语言的文本格式,但也使用了类似于C家族语言(包括C、C++、C#、Java、JavaScript、Perl、Python等)的习惯,这使得JSON成为理想的...
MusicStream 是一个基于 Python 开发的 Web API,专为流媒体音乐服务设计,目标是成为一个XBMC(Xbox Media Center,现称为Kodi)插件。这个项目为用户提供了便捷的方式来管理和播放存储在本地的音乐文件,通过Web...
5. **Web应用**:"dreamer"可能是一个Web应用,"main"目录可能包含服务器端代码(如Express.js for Node.js)和客户端代码(如React或Vue.js)。 6. **移动应用**:如果这是个移动应用,"dreamer-main"可能包含...
Sweetest是一种小而美的自动化测试解决方案,同时支持Web UI,Http接口,DB操作测试,Android / iOS App测试,小程序测试,Windows GUI测试,文件操作;由于开始只支持Web UI测试,名字取自Selenium,Web UI,...
标题“Actividad-Integradora2”和描述中并没有提供具体的IT知识点,但根据一般项目或任务命名的习惯,我们可以推测这可能是一个集成活动或者是一个综合性的编程作业,旨在测试或提升学生的综合技能。"Actividad-...
这可能是一个源代码仓库,包含了项目的主入口点,比如一个服务器应用的`main.py`(Python)或`index.js`(JavaScript)。如果这是一个软件项目,那么"ourapp-main"可能包含着构建和运行该应用所需的关键组件。 为了...
【标题】"MyHobby1"可能代表一个个人项目或者兴趣爱好相关的文件集合,而缺少描述使得具体细节无从得知。然而,我们可以根据常见的IT知识框架来探讨可能包含的内容。 在IT领域,个人项目通常涉及编程、数据分析、...
Maxlulu似乎是一个项目或应用的名字,但没有提供足够的信息来详细解释它的性质或功能。在没有具体的描述或标签的情况下,我们只能进行一些基于常见IT术语的推测。"Maxlulu-main"可能是指项目的主分支或者主要代码库...
因此,这个“Faculdade:Atividade”可能是一个编程项目,涵盖了软件开发的各个方面,包括需求分析、设计、编码、测试和文档编写。 【描述】中的信息非常简洁,没有提供具体细节。通常,这样的项目可能包括以下常见...
每种语言都有其特点和应用场景,例如,Java适合企业级应用,Python用于数据分析,C++适用于系统编程,JavaScript则常用于Web开发。 数据库管理是存储和检索数据的关键技术。关系型数据库如MySQL、Oracle和SQL ...