python BeautifulSoup 中文编码问题解决 - iqbon的烂笔头 - ITeye博客

`

El_Nino

浏览: 208919 次
性别:
来自: 深圳

最近访客更多访客>>

kaige9at

mgf614

ycabbage

50050192

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

soft_xiang： import com.iqbon.jcms.domain.Qu ...
spring3.1和quatz2实现数据库持久化和动态加载
dipwater：根据以上操作连接成功，谢谢分享！
用SecureCRT连接AWS EC2
andy_javahome：大牛我弱弱的问一句QuartzService是如何被调用的 ...
spring3.1和quatz2实现数据库持久化和动态加载
El_Nino： sdjnzqr 写道这几种貌似不适合企业级的架构选型领导要求 ...
前端选型，几种前端UI的比较
sdjnzqr：这几种貌似不适合企业级的架构选型
前端选型，几种前端UI的比较

python BeautifulSoup 中文编码问题解决

阅读更多

在用BeautifulSoup进行抓取页面的时候，会各种各样的编码错误。

可以通过在beautifulsoup中指定字符编码，解决问题。

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.163.com');
soup = BeautifulSoup(page,from_encoding="gb18030")

print soup.originalEncoding
print soup.prettify()

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题，当然具体参数值是什么就要看你获取页面的编码是什么

分享到：

Jetty 9.0启动报错org/apache/nutch/crawl ...

2014-03-18 23:26
浏览 12334
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python BeautifulSoup中文乱码问题的2种解决方法: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...

python BeautifulSoup.tar(2024): 使用BeautifulSoup可以方便地从网页中提取所需的数据，如链接、图片、文本等，它能够应对不规范的HTML代码，并且能够处理常见的编码问题。 BeautifulSoup库支持多种解析器，例如Python标准库中的html.parser，也...

python BeautifulSoup设置页面编码的方法: 可以通过在beautifulsoup中指定字符编码，解决问题。复制代码代码如下: import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen(‘http://www.163.com’); soup = ...

python爬虫实例——基于BeautifulSoup与urllib.request: 7. 错误处理：在实际操作中，可能会遇到网络错误、编码问题或无效的HTML结构。因此，添加异常处理代码是必要的，以保证爬虫的稳定运行。在提供的文件`pc.py`和`pc_br.py`中，可能分别实现了基本爬虫和带有异常处理...

python抓取并保存html页面时乱码问题的解决方法: 此外，使用适当的库和模块（如`chardet`和`BeautifulSoup`），以及确保在读写文件时指定正确的编码，也是解决问题的关键。在实践中，应该养成良好的编码处理习惯，以确保数据的准确性和一致性。

爬取Lofter图片依赖Python的BeautifulSoup4第三方库: 本项目可以爬取Lofter图片，依赖Python的BeautifulSoup4第三方库，使用本项目需要先安装BeautifulSoup4。 ### 安装依赖库：安装BeautifulSoup4： * Debain或Ubuntu可以通过系统软件包管理安装： ``` bash $ ...

chardet-1.0.1.tar.gz 自动检测python汉字编码辅助: `chardet-1.0.1.tar.gz` 是一个针对这种情况的解决方案，它包含了一个名为 `chardet` 的Python库，用于自动检测汉字编码。这个库能够帮助开发者识别未知的字符编码，从而确保数据正确地被解析和处理。 `chardet` 库...

beautifulsoup python: BeautifulSoup是Python编程语言中的一款强大且常用的库，主要用于网页数据的抓取和解析，尤其在Web爬虫领域中有着广泛的应用。BeautifulSoup库结合了HTML和XML的解析能力，使得开发者可以方便地检索和操作网页文档中...

BeautifulSoup: 注意：为了解决乱码问题，用版本3的。如3.2.1。BeautifulSoup处理后的默认编码是utf-8。中文文档：http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 其他参考：...

Python爬虫包BeautifulSoup实例（三）: 由于网络上的文本可能采用不同的字符编码，如果不对编码进行正确处理，可能导致乱码问题，影响数据的正确读取。在本实例中，作者使用了decode('utf-8')来将读取的内容解码为UTF-8编码，这是一种广泛支持的字符编码，...

python 采集中文乱码问题的完美解决方法: 本文将详细介绍如何解决Python在采集过程中遇到的中文乱码问题。首先，我们需要了解Python中的字符编码基础。在Python中，字符串是用Unicode编码表示的，这意味着每个字符都有一个唯一的数字表示，不论其语言。...

beautifulsoup for python: 它可以解析不规范的HTML，处理嵌套标签，以及解决编码问题，为开发者屏蔽了许多底层的复杂性。在压缩包文件`beautifulsoup4-4.4.1`中，我们可以推测这是BeautifulSoup库的一个具体版本，即4.4.1版。这个版本可能...

python网络爬虫之---体验篇BeautifulSoup: 本文将围绕“Python网络爬虫之体验篇——使用BeautifulSoup”这一主题，深入探讨如何利用Python和BeautifulSoup进行网络爬虫开发，包括抓取网页、处理中文乱码问题以及下载文件等常见需求。 #### 一、使用Python...

BeautifulSoup4.2文档: BeautifulSoup4.2文档是一份针对Python3版本的BeautifulSoup库的官方文档。BeautifulSoup库是一个Python库，它的主要功能是提取HTML和XML文件中的数据。它能够与程序员喜欢的解析器一起工作，提供了非常符合习惯的...

python基于BeautifulSoup实现抓取网页指定内容的方法: 本篇文章将详细介绍如何使用Python结合BeautifulSoup来抓取网页上的指定内容。首先，要使用BeautifulSoup，需要导入必要的库。在Python中，`urllib2`库用于打开和读取网页，而`BeautifulSoup`则是解析网页内容的...

高德API + Python 解决租房问题_实验楼: 在本项目中，“高德API + Python 解决租房问题_实验楼”是一个综合性的实践教程，旨在教给读者如何利用Python编程语言进行网络爬虫开发，并结合高德地图API来处理和展示租房信息。这个实验主要涉及两个核心知识点：...

BeautifulSoup Project_python_源码.zip: 6. **解析和编码处理**：BeautifulSoup处理网页编码问题，可以自动检测文档的编码，并允许你指定输出的编码格式。在源代码中，你可能会看到以下内容： - 解析器接口的实现，如何与不同的解析器（如`lxml`）交互。...

Python利用BeautifulSoup解析Html的方法示例: - **兼容性**：能够自动处理编码问题，简化了文本处理过程。 - **灵活性**：支持多种解析器，如lxml、html5lib等，可根据需求选择合适的解析策略。 #### 三、安装BeautifulSoup 在使用BeautifulSoup之前，需要先...

Global site tag (gtag.js) - Google Analytics