Python3.4网页抓取之编码异常

qindongliang1922

浏览: 2211171 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118397

: 证道Hadoop
浏览量：126724

: 证道shell编程
浏览量：60798

: ELK修真
浏览量：71956

文章分类

社区版块

存档分类

博客分类：

Python

python 抓取网页编码异常

使用Python抓取网页的时候，有时候我们会解析出现异常，这时候，就会导致整个网页解析不成功，究其原因，仅仅是因为编码里某个小小的地方编码出错了，才导致解析失败，那么我们应该如何比较好的避免这种情况出现呢？
看下面的例子：

import urllib.request,urllib.parse,http.cookiejar


cj=http.cookiejar.CookieJar()
opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
opener.addheaders=[('User-Agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')]

urllib.request.install_opener(opener)

m=urllib.request.urlopen("http://qindongliang.iteye.com/blog/2142783")



print(m.read().decode('utf-8'))

控制台输出如下：

Traceback (most recent call last):
  File "D:/pythonide/pythonprojectworkspace/python进阶/http学习/tt.py", line 14, in <module>
    print(m.read().decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe6 in position 626: invalid continuation byte

Process finished with exit code 1

当然，我们抓取其他的网页，可能没有这个异常，但是由于某些编码的内容有一些小小的问题，所以导致了上述异常的发生，可以看出是在decode解码时发生的异常，下面我们就看下decode方法的支持的模式，来自python的API文档里面有这样一段话：

codecs.encode(obj, encoding='utf-8', errors='strict') 
Encodes obj using the codec registered for encoding.

Errors may be given to set the desired error handling scheme. The default error handler is strict meaning that encoding errors raise ValueError (or a more codec specific subclass, such as UnicodeEncodeError). Refer to Codec Base Classes for more information on codec error handling.

python默认的解码对待错误的方式是严格执行的，有一点小小错误，就会整个解析失败，当然python也提供了几种其他的错误模式：
序号模式说明
1 'strict' 只要编码出现错误，就抛出异常
2 'replace' 使用？等字符替换出现错误编码的地方
3 'ignore' 忽略出现编码错误的地方，继续解码，并不会抛出任何异常
4 'xmlcharrefreplace' 用适当的xml字符标记出现问题的地方
5 'backslashreplace' 使用反斜杠代替出异常字符
6 'surrogateescape' 使用UPUA标记替代

现在我们加上ignore属性后，又可以正常解析了：

查看图片附件

0
顶

0
踩

分享到：

Python3.4网页解析之HTMLParse | lucene和solr的分词器词库如何从数据库加载 ...

2014-10-15 18:00
浏览 2384
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论