`
wanglei6744
  • 浏览: 26172 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

BeautifulSoup 初体验

阅读更多

最近尝试了一下BeautifuSoup 这个解析html的类库,概叹BeautifuSoup 的强大啊,了了几行代码就能抓取香港官网iphone4s的信息 哈哈——

 

from BeautifulSoup import BeautifulSoup
import urllib

webpage = urllib.urlopen(r"http://store.apple.com/hk-zh/browse/home/shop_iphone/family/iphone/iphone4s");
soup = BeautifulSoup(webpage.read())
tags = soup('ul',{'class':'selection-options all-models'})
tags = tags[0](lambda tag : len(tag.attrs) == 1 and tag.name in ['span'] and
                     tag['class'] in ['shipping','price','color','title'])
for tag in tags :
    print tag.text
    print '-' * 30

 

输入结果:

16GB1
------------------------------
black
------------------------------
HK$ 5,088
------------------------------
估計付運時間:暫無供應
------------------------------
32GB1
------------------------------
black
------------------------------
HK$ 5,888
------------------------------
估計付運時間:暫無供應
------------------------------
64GB1
------------------------------
black
------------------------------
HK$ 6,688
------------------------------
估計付運時間:暫無供應
------------------------------
16GB1
------------------------------
white
------------------------------
HK$ 5,088
------------------------------
估計付運時間:暫無供應
------------------------------
32GB1
------------------------------
white
------------------------------
HK$ 5,888
------------------------------
估計付運時間:暫無供應
------------------------------
64GB1
------------------------------
white
------------------------------
HK$ 6,688
------------------------------
估計付運時間:暫無供應
------------------------------

 

关于BeautifulSoup 大家可以参考 http://www.crummy.com/software/BeautifulSoup/documentation.zh.html

,赶紧加入pythoner 的行列吧,哈哈

 

我的微博:http://weibo.com/lei6744

分享到:
评论

相关推荐

    feapder 爬虫框架初体验代码

    在这个"feapder爬虫框架初体验代码"中,我们将深入探讨Feapder的核心特性和基本用法。 1. **Feapder简介** Feapder是一个轻量级的爬虫框架,它提供了丰富的内置功能,如自动处理反爬策略、数据持久化、任务调度等...

    Python零基础30天速通视频.zip

    2 Python世界之初体验 3 Python数据类型 4 不可不知Python运算符 5 南辕北辙的条件语句 6 Python循环语句的使用 7 数据类型列表-字典-字符串 8 Python函数之介绍. 9 特种兵的战场(项目案例) 10 面向对象基础 11 ...

    Python零基础30天速通.zip

    02斗罗大陆异界唐三丨Python世界之初体验 03漩涡鸣人的生存演习丨Python数据类型 04航海王悬赏金PK丨不可不知Python运算符 05盒子里的期待之盲盒丨南辕北辙的条件语句 06今天你抢券了吗丨Python循环语句的使用 07...

    12行简单的Python代码,初窥爬虫的秘境.docx

    - **tqdm**:一个进度条库,可提升用户体验,让爬虫运行过程更加直观。 #### 六、具体实现步骤 1. **导入所需库**:首先需要导入`requests`、`lxml`等库。 2. **发送请求**:使用`requests.get()`方法向目标网址...

    python-movieSE

    此外,考虑到网络爬虫在运行过程中可能会遇到的各种问题,如网页结构的变化、反爬虫机制的应对、数据的及时更新等,“python-movieSE”项目在设计之初就需要对这些潜在问题进行充分预判和规划。例如,开发团队可能会...

    实用脚本工具python-practical-script-master.zip

    Python作为一门编程语言,自20世纪90年代初诞生以来,以其简洁明了、易于学习和应用广泛的特点,迅速成为最受欢迎的编程语言之一。在软件开发、数据分析、人工智能、网络爬虫、自动化脚本等众多领域,Python的应用...

    python爬虫教程从入门到精通

    #### 六、爬虫前置知识与初体验(第06章) - **章节目标**:引导学员完成简单的爬虫项目。 - **主要内容**: - 网页数据获取方法介绍(如requests库的使用)。 - 网页内容解析技巧(如BeautifulSoup库的使用)。 ...

    纽约时报

    HTML是由蒂姆·伯纳斯-李在1990年代初发明的,旨在使信息共享变得更容易。它由一系列元素组成,这些元素通过标签表示,如`<html>`, `<head>`, `<body>`等。HTML元素可以包含文本内容,也可以引用其他资源,如图片、...

    conversation_rasa_1:rasa_x的漫游器

    在这个过程中,开发者面临的主要挑战可能包括如何有效规避反爬策略、处理动态加载的内容、提高爬虫的稳定性以及如何设计合理的对话流程使用户体验流畅。此外,Rasa X的使用可以帮助开发者通过其可视化界面更好地理解...

    pythonspider2018:python spider python 图片 爬虫

    8. **下载进度显示**:为了提升用户体验,可以添加下载进度条或百分比显示,让用户了解爬取和下载的状态。 9. **版权和法律问题**:在进行图片爬取时,务必注意遵守版权法,尊重网站的robots.txt规则,不要进行非法...

Global site tag (gtag.js) - Google Analytics