`
macken
  • 浏览: 346756 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Python获取html显示乱码

 
阅读更多

 

#!/usr/bin/env python
# -*- coding: GBK -*-
import urllib2
import simplejson

url="http://localhost:82/v1/"
header = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.14) Gecko/20080404 (FoxPlus) Firefox/2.0.0.14','Accept':'application/json'}
request = urllib2.Request(url, headers=header)
response = urllib2.urlopen(request)
data = response.read()

 在使用以上代码获取html内容时可能会显示乱码,原因可能是由于服务器端返回的数据是utf-8编码,直接显示会出现乱码,解决方法

 

data.decode('utf-8').encode('gb2312')

也可以直接使用

data.decode('utf-8')

  在调用

 

print data

 语句时,系统会自动转换为中文编码输出

 

分享到:
评论

相关推荐

    python抓取并保存html页面时乱码问题的解决方法

    在Python中进行网页抓取(Web Scraping)是一项常见的任务,但往往在处理HTML页面时会遇到乱码问题。这通常发生在读取、解析或保存网页内容时,由于编码不匹配导致字符无法正确显示。本篇文章将深入探讨Python抓取并...

    Python网络爬虫出现乱码问题的解决方法

    Python网络爬虫在抓取网页数据时,可能会遇到各种乱码问题,这主要源于源网页的编码和爬虫程序处理编码之间存在不匹配。解决乱码的关键在于正确地识别和处理网页的编码。 首先,我们需要了解乱码产生的原因。源网页...

    Python-IMGKit将HTML转换成图像Python库

    1. **从URL转换**:除了从字符串转换,IMGKit还支持直接从URL获取HTML并转换为图像: ```python url = 'http://example.com' imgkit = Imgkit.from_url(url, options=options) image_path = imgkit.save('output....

    详解Python解决抓取内容乱码问题(decode和encode解码)

    在Python编程中,特别是在进行网络数据抓取时,经常会遇到内容乱码的问题。这主要是由于网页的原始编码格式与我们处理数据时所使用的编码格式不匹配导致的。本文将详细介绍如何利用Python中的`decode`和`encode`方法...

    Python request中文乱码问题解决方案

    本篇文章将深入探讨这个问题,以及如何解决Python `requests`库在获取中文网页时的乱码问题。 首先,我们需要理解`requests.get()`函数返回的两种类型数据:`r.text`和`r.content`。`r.text`返回的是Unicode类型的...

    python中requests爬去网页内容出现乱码问题解决方法介绍

    最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。 import ...

    python 采集中文乱码问题的完美解决方法

    在Python编程中,处理中文字符时经常遇到的一个挑战就是中文乱码问题。这通常发生在数据采集、读写文件或网络通信等涉及字符编码转换的场景。本文将详细介绍如何解决Python在采集过程中遇到的中文乱码问题。 首先,...

    Python信息抽取之乱码解决办法

    ### Python信息抽取之乱码解决办法 在进行网络爬虫或数据抓取的过程中,经常会遇到乱码问题,尤其是在处理中文网页时更为常见。本篇文章将详细介绍如何使用Python解决信息抽取过程中遇到的乱码问题。 #### 一、...

    信息技术Python获取数据优质课教案.pdf

    【教学重点】在于理解Python获取数据的基本流程,以及requests库和BeautifulSoup库在其中的作用。 【教学难点】在于如何根据网页源代码设计有效的获取和解析策略。 【教学过程】分为几个环节: 1. 引导学生思考...

    python爬虫获取新浪新闻教学

    在本教程中,我们将探讨如何使用Python来获取新浪新闻。 首先,我们需要了解爬虫的基本工作原理。爬虫通过发送HTTP请求到目标网站(如新浪新闻),获取响应数据,然后使用解析库解析这些数据,提取出所需的信息。在...

    python3.7官方文档 chm

    Python 3.7是Python编程语言的一个重要版本,它带来了许多新特性和改进。...由于CHM文件可能因编码问题显示乱码,建议在打开时按照描述中提到的方法,将IE浏览器的编码设置为“自动选择”,以正确查看文档内容。

    python提取html当中的信息.docx

    总的来说,Python 提取 HTML 中的信息是通过网络请求获取网页内容,然后使用解析器对 HTML 进行解析,找到并处理感兴趣的部分。这个过程对于构建网络爬虫和数据分析项目非常有用,可以方便地获取并处理大量网页上的...

    用python实现下载百度mp3

    同时,“百度的编码为GB2312”提示我们在处理返回的数据时需要考虑到字符编码,否则可能会遇到乱码问题,特别是在输入和显示中文时。为此,可能需要在运行脚本前修改终端的编码设置,或者在代码中进行编码转换。 在...

    Python3之乱码\xe6\x97\xa0\xe6\xb3\x95处理方式

    ### Python3之乱码处理方式详解 在Python3中,乱码问题经常出现在与外部系统交互时,尤其是在处理中文或其它非ASCII字符时更为常见。本文将深入探讨Python3中的乱码处理方式,并通过具体实例来说明如何有效地解决这...

Global site tag (gtag.js) - Google Analytics