今天将网易首页作为demo爬下来
1.用python自带的模块 urllib2作为爬去的工具
2.用beautifulSoup作为解析爬去页面的工具
python在书写上确实秒杀java的,几句话就能解析掉整个网页,而且BeautifuSoup能够补全缺失的HTML标签,赞一个。
但是,中文乱码的事情还是出现了,我看了下网易用的gb2312的编码集。
content = "我是网易GB2312“、
contentUnicode = content.decode("gb2312") #将content这个编码集从gb2312转到了unicode编码集中
contentGBK = contentUnicode.encode("gbk") #将contentUnicode编码集从unicode转到了GBK
这个两个方法是从用的,网上也有很多的资料。
我也转过去了,但是遇到的问题
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 44844-44845: illegal multibyte sequence
搞了一个早上都没有解决掉这个问题。真是痛苦啊。。。,WHY WHY WHY????
分享到:
相关推荐
Python 中文乱码问题深入分析 在 Python 中,中文乱码问题一直是一个让人头疼的问题,经常抛出编码转换的异常。那么,Python 中的 str 和 unicode 到底是什么东西呢? 首先,Python 中的 unicode 指的是 unicode ...
综上所述,Python中文乱码问题主要源于字符编码的不匹配,通过正确识别和指定编码,可以避免大部分乱码情况的发生。在处理中文字符时,养成良好的编码习惯,统一使用UTF-8编码,可以显著减少乱码问题,提升开发效率...
Python中文乱码详解参考.pdf 标题:Python中文乱码详解参考 描述:本文目的为Python程序员简练地介绍字符编码相关支持,彻底解疑Python中文乱码、Python 2与Python 3字符编码差异等相关问题。 标签:无 部分内容...
### Python 中文乱码解决方案 在使用Python处理中文字符时,可能会遇到中文乱码的问题。中文乱码问题的出现通常是由于编码设置不正确所导致的。本文将详细探讨这一问题,并提供一种有效的解决方法。 #### 一、问题...
Python中文乱码详解[定义].pdf
本篇文章将深入探讨如何解决Linux下Python中文乱码的常见问题,并提供实际操作的解决方案。 首先,问题通常出现在当Python程序需要显示或输出包含中文字符的数据,例如在使用matplotlib库绘制图表时。一个具体的...
解决Python中文乱码的方法主要有以下几种: 1. 指定编码:在打开文件时明确指定文件的编码方式,如上述例子所示。 2. 使用`chardet`库检测编码:如果你不确定文件的编码,可以使用`chardet`库来检测。例如: ```...
Python中文乱码详解.docx
Python中文乱码详解.pdf
Python 中文乱码问题深化分析 在 Python 中,中文编码一直是一个极为头大的问题,经常抛出编码转换的异常。本文将深入分析 Python 中的中文编码问题,并提供相应的解决方案。 一、Python 中的 str 和 unicode 在 ...
解决python中文乱码问题、首先发送请求,然后将请求返回的值传到coding(req)函数。
今天在用python3+ImageFont输出中文时,结果显示乱码 # coding:utf-8 from PIL import Image, ImageDraw, ImageFont image= Image.new('RGB', (559, 320),(255,255,255)) draw = ImageDraw.Draw(image) # draw.text...
Python是一种广泛使用的编程语言,但在处理中文字符时可能会遇到乱码问题。这主要是因为Python的默认内部编码是ASCII,不支持中文字符。为了解决这个问题,我们需要采取一些措施确保中文字符能够正确显示。 1. **...