转载参考:http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/
1、背景
Python中的,专门用于HTML解析的库,比较好用的,就是BeautifulSoup
2、BeautifulSoup简介
Python中有专门用于HTML/XML解析的库
特点是:
即便是有bug,有问题的HTML代码也可以被解析。功能强大。
BeautifulSoup主页:
http://www.crummy.com/software/BeautifulSoup/
2.1 BeautifulSoup的版本
BeautifulSoup主要有两个版本:
2.1.1 BeautifulSoup 3
之前的,比较早的,是3.x的版本。
最新的可用的在线文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
中文文档:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
下载地址 :
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/
中可以下载很多对应的版本。
2.1.2 BeautifulSoup 4: 缩写成bs4
因此有些代码中使用的导入文件是:
from bs4 import BeautifulSoup
其他的和使用3.x是一样的。
-----------使用easy_install 安装BeautifulSoup的时候,看好下载的是什么版本。有时候可能代码中写的是上面的代码,但是运行的时候会提示No Module bs4。
bs4的在线文档:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
下载地址:
http://www.crummy.com/software/BeautifulSoup/bs4/download/
http://www.crummy.com/software/BeautifulSoup/bs4/download/4.3/
2.2 BeautifulSoup的安装
2.2.1 版本3.0.6之前:无需安装,放在和Python同目录下即可使用
3.0.6之前,都是不需要安装的,所以使用起来最简单,直接下载对应的版本,比如:
http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.0.6.py
得到了BeautifulSoup-3.0.6.py,然后改名为:BeautifulSoup.py
然后,放到和你当前的python文件同目录下,比如我当前python文件是:
D:\tmp\tmp_dev_root\python\beautifulsoup_demo\beautifulsoup_demo.py
那就放到
D:\tmp\tmp_dev_root\python\beautifulsoup_demo\
下面,和beautifulsoup_demo.py同目录。
2.2.2 版本3.0.6之后:需要安装BeautifulSoup后才可以使用
下载过安装的压缩包之后,解压放置,然后进入到cmd窗口,目录切换到对应的压缩包解压目录:
D:\users\Desktop\beautifulsoup4-4.3.2
然后直接使用下面的命令安装:
setup.py install
相关推荐
Python beautifulsoup4包 Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包Python beautifulsoup4包
离线安装python Beautifulsoup4库
一个简单的python爬虫,原生python+BeautifulSoup 原生python+BeautifulSoup4 python3.4版本 所有脚本要和spider.py放到同一目录下 自行下载BeautifulSoup4 的类库 window下 pip install bs4即可 爬取知乎的爬虫 ...
Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学者入门。Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学者入门。Python爬虫BeautifulSoup详解,完全自学指南,内容详实,适合初学...
#### 一、BeautifulSoup简介 - **定义**:Beautiful Soup(简称“BS”)是Python语言的一个库,主要用于解析HTML或XML文档,并从中提取所需的数据。 - **作用**:通过喜欢的转换器(如lxml, html5lib等),提供方便...
本项目可以爬取Lofter图片,依赖Python的BeautifulSoup4第三方库,使用本项目需要先安装BeautifulSoup4。 ### 安装依赖库: 安装BeautifulSoup4: * Debain或Ubuntu可以通过系统软件包管理安装: ``` bash $ ...
Python使用BeautifulSoup网页爬虫.docx
本实例将深入探讨如何使用Python的BeautifulSoup库与urllib.request模块来实现一个基本的网页抓取功能。 首先,`urllib.request`是Python标准库中的一个模块,用于处理URL相关的请求。在爬虫领域,它主要负责发起...
输入链接采集1688和某宝的详情图片和视频;python的BeautifulSoup库;
到此这篇关于Python中BeautifulSoup通过查找Id获取元素信息的文章就介绍到这了,更多相关BeautifulSoup Id获取元素信息内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网!...
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码 代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...
- 在Python脚本中,需要导入`requests`和`BeautifulSoup`两个库: ```python import requests from bs4 import BeautifulSoup ``` #### 三、核心功能实现 1. **定义爬取函数**: - 创建一个名为`scrape_...
BeautifulSoup是Python中的一款HTML和XML解析库,用于抓取网页内容。它能够帮助开发者方便地解析HTML和XML文档,找到并提取所需的数据。在这个项目中,BeautifulSoup用于解析网页源代码,定位到图片链接。 **HTTP和...
在Python中整合BeautifulSoup、Oracle和MySQL,可以实现从网页抓取数据,然后将这些数据存储到数据库中,或者从数据库中检索数据并进行分析。例如,你可以编写一个脚本,先使用BeautifulSoup爬取网站上的产品信息,...
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
本资源是一个基于Python的BeautifulSoup库爬取电影、图书、音乐数据的数据分析系统源码和文档。...通过阅读和运行本资源中的代码,学习者可以深入了解Python编程、BeautifulSoup库的使用以及数据分析的基本概念和技术。
python爬虫-beautifulsoup实践代码python爬虫-beautifulsoup实践代码
2-4 基于 HTML 的爬虫,Python(Beautifulsoup)实现 .mp4