`
endual
  • 浏览: 3565500 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

python中文乱码

 
阅读更多

今天将网易首页作为demo爬下来

 

1.用python自带的模块 urllib2作为爬去的工具

2.用beautifulSoup作为解析爬去页面的工具

python在书写上确实秒杀java的,几句话就能解析掉整个网页,而且BeautifuSoup能够补全缺失的HTML标签,赞一个。

 

但是,中文乱码的事情还是出现了,我看了下网易用的gb2312的编码集。

 

content = "我是网易GB2312“、

contentUnicode = content.decode("gb2312") #将content这个编码集从gb2312转到了unicode编码集中

contentGBK = contentUnicode.encode("gbk") #将contentUnicode编码集从unicode转到了GBK

 

这个两个方法是从用的,网上也有很多的资料。

我也转过去了,但是遇到的问题

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 44844-44845: illegal multibyte sequence

搞了一个早上都没有解决掉这个问题。真是痛苦啊。。。,WHY WHY WHY????

分享到:
评论

相关推荐

    python 中文乱码 问题深入分析.docx

    Python 中文乱码问题深入分析 在 Python 中,中文乱码问题一直是一个让人头疼的问题,经常抛出编码转换的异常。那么,Python 中的 str 和 unicode 到底是什么东西呢? 首先,Python 中的 unicode 指的是 unicode ...

    Python中文乱码

    综上所述,Python中文乱码问题主要源于字符编码的不匹配,通过正确识别和指定编码,可以避免大部分乱码情况的发生。在处理中文字符时,养成良好的编码习惯,统一使用UTF-8编码,可以显著减少乱码问题,提升开发效率...

    Python中文乱码详解参考.pdf

    Python中文乱码详解参考.pdf 标题:Python中文乱码详解参考 描述:本文目的为Python程序员简练地介绍字符编码相关支持,彻底解疑Python中文乱码、Python 2与Python 3字符编码差异等相关问题。 标签:无 部分内容...

    python 中文乱码

    ### Python 中文乱码解决方案 在使用Python处理中文字符时,可能会遇到中文乱码的问题。中文乱码问题的出现通常是由于编码设置不正确所导致的。本文将详细探讨这一问题,并提供一种有效的解决方法。 #### 一、问题...

    Python中文乱码详解[定义].pdf

    Python中文乱码详解[定义].pdf

    linux下python中文乱码解决方案详解

    本篇文章将深入探讨如何解决Linux下Python中文乱码的常见问题,并提供实际操作的解决方案。 首先,问题通常出现在当Python程序需要显示或输出包含中文字符的数据,例如在使用matplotlib库绘制图表时。一个具体的...

    Python中文乱码详解.rar

    解决Python中文乱码的方法主要有以下几种: 1. 指定编码:在打开文件时明确指定文件的编码方式,如上述例子所示。 2. 使用`chardet`库检测编码:如果你不确定文件的编码,可以使用`chardet`库来检测。例如: ```...

    Python中文乱码详解.docx

    Python中文乱码详解.docx

    Python中文乱码详解.pdf

    Python中文乱码详解.pdf

    python 中文乱码问题深化分析.docx

    Python 中文乱码问题深化分析 在 Python 中,中文编码一直是一个极为头大的问题,经常抛出编码转换的异常。本文将深入分析 Python 中的中文编码问题,并提供相应的解决方案。 一、Python 中的 str 和 unicode 在 ...

    python解决中文乱码问题

    解决python中文乱码问题、首先发送请求,然后将请求返回的值传到coding(req)函数。

    解决Python3用PIL的ImageFont输出中文乱码的问题

    今天在用python3+ImageFont输出中文时,结果显示乱码 # coding:utf-8 from PIL import Image, ImageDraw, ImageFont image= Image.new('RGB', (559, 320),(255,255,255)) draw = ImageDraw.Draw(image) # draw.text...

    python避免中文乱码的代码.docx

    Python是一种广泛使用的编程语言,但在处理中文字符时可能会遇到乱码问题。这主要是因为Python的默认内部编码是ASCII,不支持中文字符。为了解决这个问题,我们需要采取一些措施确保中文字符能够正确显示。 1. **...

Global site tag (gtag.js) - Google Analytics