python + request + pyquery[安装失败]

pyzheng

浏览: 3441505 次
性别:
来自: 珠海

最近访客更多访客>>

kopomimi

oszerone

lindow

leisure0422

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2016-06 ( 26)
2016-05 ( 32)
2016-04 ( 33)
更多存档...

博客分类：

Python&爬虫

比urllib好用的requests http://www.bsdmap.com/2013/01/13/python-requests/
更多见官方文档：
http://docs.python-requests.org/en/latest/user/quickstart/
http://docs.python-requests.org/en/latest/user/advanced/#advanced

比urllib好用的requests
Python标准库里提供了httplib以及urllib、urllib2，但是学习了好几次，都没有记住（下的功夫不够）。今天崔推荐了一个requests库，看了一下样例，几乎立即就会使用了，所以推荐给大家。
看官方是怎么描述这种情况的：
“Python’s standard urllib2 module provides most of the HTTP capabilities you need, but the API is thoroughly broken. It was built for a different time — and a different web. It requires an enormous amount of work (even method overrides) to perform the simplest of tasks.

Things shouldn’t be this way. Not in Python.”

http://docs.python-requests.org/en/latest/

可见urllib2确实不太容易使用。
常用功能罗列如下，以便查询。

# 0. 认证、状态码、header、编码、json

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

# 1. 发起请求

import requests
URL="http://www.bsdmap.com/"
r = requests.get(URL)
r = requests.post(URL)
r = requests.put(URL)
r = requests.delete(URL)
r = requests.head(URL)
r = requests.options(URL)

# 2. 通过URL传递参数

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)
>>> print r.url
u'http://httpbin.org/get?key2=value2&amp;key1=value1'

# 3. 返回内容

>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.text
'[{"repository":{"open_issues":0,"url":"https://github.com/...
>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'

# 4. 二进制内容

You can also access the response body as bytes, for non-text requests:
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

The gzip and deflate transfer-encodings are automatically decoded for you.

For example, to create an image from binary data returned by a request,
 ou can use the following code:

>>> from PIL import Image
>>> from StringIO import StringIO
>>> i = Image.open(StringIO(r.content))

# 5. JSON

>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

# 6. 超时

>>> requests.get('http://github.com', timeout=0.001)

# 7. 自定义header

>>> import json
>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}
>>> headers = {'content-type': 'application/json'}
>>> r = requests.post(url, data=json.dumps(payload), headers=headers)

pyquery: 基于python和jquery语法操作XML
http://geoinformatics.cn/lab/pyquery/
Python学习笔记—PyQuery库的使用总结 http://newliu.com/post/18/
Python中PyQuery安装 http://thend.blog.163.com/blog/static/218973116201349112855661/
Linux下安装Pyquery方法 http://blog.xmaoseo.com/451.html
可以使用yumex安装pyquery

一、简介
pyquery库是jQuery的Python实现，可以用于解析HTML网页内容，我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是：http://packages.python.org/pyquery/。今天重新看了一遍整个文档，把它的一些使用方法整理了一下，做个记录。

二、使用方法
from pyquery import PyQuery as pq
1.可加载一段HTML字符串，或一个HTML文件，或是一个url地址，例：

d=pq("<html><title>hello</title></html>")
d=pq(filename=path_to_html_file)
d=pq(url='http://www.baidu.com')

注意：此处url似乎必须写全

2.html()和text() ——获取相应的HTML块或文本块，例：

p=pq("<head><title>hello</title></head>")
p('head').html()#返回<title>hello</title>
p('head').text()#返回hello

3.根据HTML标签来获取元素，例：

d=pq('<div><p>test 1</p><p>test 2</p></div>')
d('p')#返回[<p>,<p>]
print d('p')#返回<p>test 1</p><p>test 2</p>
print d('p').html()#返回test 1

注意：当获取到的元素不只一个时，html()、text()方法只返回首个元素的相应内容块

4.eq(index) ——根据给定的索引号得到指定元素
接上例，若想得到第二个p标签内的内容，则可以：

print d('p').eq(1).html() #返回test 2

5.filter() ——根据类名、id名得到指定元素，例：

d=pq("<div><p id='1'>test 1</p><p class='2'>test 2</p></div>")
d('p').filter('#1') #返回[<p#1>]
d('p').filter('.2') #返回[<p.2>]

6.find() ——查找嵌套元素，例：

d=pq("<div><p id='1'>test 1</p><p class='2'>test 2</p></div>")
d('div').find('p')#返回[<p#1>, <p.2>]
d('div').find('p').eq(0)#返回[<p#1>]

7.直接根据类名、id名获取元素，例：

d=pq("<div><p id='1'>test 1</p><p class='2'>test 2</p></div>")
d('#1').html()#返回test 1
d('.2').html()#返回test 2

8.获取属性值，例：

d=pq("<p id='my_id'><a href='http://hello.com'>hello</a></p>")
d('a').attr('href')#返回http://hello.com
d('p').attr('id')#返回my_id

9.修改属性值，例：

d('a').attr('href', 'http://baidu.com')

把href属性修改为了baidu

10.addClass(value) ——为元素添加类，例：

d=pq('<div></div>')
d.addClass('my_class')#返回[<div.my_class>]

11.hasClass(name) #返回判断元素是否包含给定的类，例：

d=pq("<div class='my_class'></div>")
d.hasClass('my_class')#返回True

12.children(selector=None) ——获取子元素，例：

d=pq("<span><p id='1'>hello</p><p id='2'>world</p></span>")
d.children()#返回[<p#1>, <p#2>]
d.children('#2')#返回[<p#2>]

13.parents(selector=None)——获取父元素，例：

d=pq("<span><p id='1'>hello</p><p id='2'>world</p></span>")
d('p').parents()#返回[<span>]
d('#1').parents('span')#返回[<span>]
d('#1').parents('p')#返回[]

14.clone() ——返回一个节点的拷贝

15.empty() ——移除节点内容

16.nextAll(selector=None) ——返回后面全部的元素块，例：

d=pq("<p id='1'>hello</p><p id='2'>world</p><img scr='' />")

d('p:first').nextAll()#返回[<p#2>, <img>]
d('p:last').nextAll()#返回[<img>]

17.not_(selector) ——返回不匹配选择器的元素，例：

d=pq("<p id='1'>test 1</p><p id='2'>test 2</p>")
d('p').not_('#2')#返回[<p#1>]

pyquery还有其他一些用法，这里没有一一整理出来，更多更全的方法可以直接去看它的文档。

分享到：

使用Jsoup对HTML进行解析 | 你们都用什么来做爬虫的

2013-09-28 20:51
浏览 2196
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

scrapy 安装包: 在Python开发环境中，安装Scrapy及其依赖包通常通过pip这个包管理器来完成。首先，让我们了解什么是pip。pip是Python的包管理工具，用于安装和管理Python软件包。通过pip，用户可以方便地下载、安装、升级和卸载...

Scrapy爬取books.toscrape.com使用ProxyPool代理池示例: 1. **安装依赖**：确保你已经安装了`Scrapy`和`PyQuery`库。如果还没安装，可以使用命令行执行： ``` pip install scrapy pyquery ``` 2. **创建Scrapy项目**：运行`scrapy startproject books_crawler`来创建一...

scrapy:修补 Scrapy Python 库以进行网页抓取: Scrapy 是一个强大的 Python 框架，专为网络爬虫设计，用于高效地抓取网页数据和提取结构化信息。在使用 Scrapy 进行网页抓取时，可能会遇到各种问题，需要对其进行修复和优化以确保其正常运行。本篇文章将深入探讨...

无需编写任何代码即可创建应用程序：Deepseek-R1 和 RooCode AI 编码代理.pdf: deepseek最新资讯、配置方法、使用技巧，持续更新中

Heric拓扑并网离网仿真模型：PR单环控制，SogIPLL锁相环及LCL滤波器共模电流抑制技术解析,基于Heric拓扑的离网并网仿真模型研究与应用分析：PR单环控制与Sogipll锁相环的共模电流抑: Heric拓扑并网离网仿真模型：PR单环控制，SogIPLL锁相环及LCL滤波器共模电流抑制技术解析,基于Heric拓扑的离网并网仿真模型研究与应用分析：PR单环控制与Sogipll锁相环的共模电流抑制效能,#Heric拓扑并离网仿真模型（plecs）逆变器拓扑为：heric拓扑。仿真说明： 1.离网时支持非单位功率因数负载。 2.并网时支持功率因数调节。 3.具有共模电流抑制能力（共模电压稳定在Udc 2）。此外，采用PR单环控制，具有sogipll锁相环，lcl滤波器。注：（V0004） Plecs版本4.7.3及以上 ,Heric拓扑; 离网仿真; 并网仿真; 非单位功率因数负载; 功率因数调节; 共模电流抑制; 共模电压稳定; PR单环控制; sogipll锁相环; lcl滤波器; Plecs版本4.7.3及以上,Heric拓扑：离网并网仿真模型，支持非单位功率因数与共模电流抑制

培训机构客户管理系统 2024免费JAVA微信小程序毕设: 2024免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

基于SMIC 40nm工艺库的先进芯片技术,SMIC 40nm工艺库技术细节揭秘：引领半导体产业新革命,smic40nm工艺库 ,smic40nm; 工艺库; 芯片制造; 纳米技术,SMIC 40nm: 基于SMIC 40nm工艺库的先进芯片技术,SMIC 40nm工艺库技术细节揭秘：引领半导体产业新革命,smic40nm工艺库 ,smic40nm; 工艺库; 芯片制造; 纳米技术,SMIC 40nm工艺库：领先技术驱动的集成电路设计基础

2013年上半年软件设计师上午题-真题及答案解析: 2013年上半年软件设计师上午题-真题及答案解析

淮南市乡镇边界，shp格式: shp格式，可直接导入arcgis使用

ROS下的移动机器人路径规划算法：基于强化学习算法DQN、DDPG、SAC及TD3的实践与应用,ROS系统中基于强化学习算法的移动机器人路径规划策略研究：应用DQN、DDPG、SAC及TD3算法,RO: ROS下的移动机器人路径规划算法：基于强化学习算法DQN、DDPG、SAC及TD3的实践与应用,ROS系统中基于强化学习算法的移动机器人路径规划策略研究：应用DQN、DDPG、SAC及TD3算法,ROS下的移动机器人路径规划算法，使用的是强化学习算法 DQN DDPG SAC TD3等 ,ROS; 移动机器人; 路径规划算法; DQN; DDPG; SAC; TD3,ROS强化学习移动机器人路径规划算法研究

粒子群优化算法精准辨识锂电池二阶RC模型参数：高仿真精度下的SOC估计铺垫,粒子群优化算法精准辨识锂电池二阶RC模型参数：仿真验证与SOC估计铺垫,使用粒子群优化算法（PSO）辨识锂电池二阶RC模型参: 粒子群优化算法精准辨识锂电池二阶RC模型参数：高仿真精度下的SOC估计铺垫,粒子群优化算法精准辨识锂电池二阶RC模型参数：仿真验证与SOC估计铺垫,使用粒子群优化算法（PSO）辨识锂电池二阶RC模型参数（附MATLAB代码）使用粒子群优化算法来辨识锂离子电池二阶RC模型的参数。将粒子群优化算法寻找到的最优参数代入二阶RC模型进行仿真，经过验证，端电压的估计误差小于0.1%，说明粒子群优化算法辨识得到的参数具有较高的精度，为锂离子电池SOC的估计做铺垫。 ,关键词：粒子群优化算法（PSO）; 锂电池二阶RC模型参数辨识; MATLAB代码; 端电压估计误差; 锂离子电池SOC估计。,PSO算法优化锂电池二阶RC模型参数：高精度仿真与MATLAB代码实现

selenium环境搭建-谷歌浏览器驱动: selenium环境搭建-谷歌浏览器驱动

35页-华为智慧社区商业解决方案.pdf: 在当今科技日新月异的时代，智慧社区的概念正悄然改变着我们的生活方式。它不仅仅是一个居住的空间，更是一个集成了先进科技、便捷服务与人文关怀的综合性生态系统。以下是对智慧社区整体解决方案的精炼融合，旨在展现其知识性、趣味性与吸引力。一、智慧社区的科技魅力智慧社区以智能化设备为核心，通过综合运用物联网、大数据、云计算等技术，实现了社区管理的智能化与高效化。门禁系统采用面部识别技术，让居民无需手动操作即可轻松进出；停车管理智能化，不仅提高了停车效率，还大大减少了找车位的烦恼。同时，安防报警系统能够实时监测家中安全状况，一旦有异常情况，立即联动物业进行处理。此外，智能家居系统更是将便捷性发挥到了极致，通过手机APP即可远程控制家中的灯光、窗帘、空调等设备，让居民随时随地享受舒适生活。视频监控与可视对讲系统的结合，不仅提升了社区的安全系数，还让居民能够实时查看家中情况，与访客进行视频通话，大大增强了居住的安心感。而电子巡更、公共广播等系统的运用，则进一步保障了社区的治安稳定与信息传递的及时性。这些智能化设备的集成运用，不仅提高了社区的管理效率，更让居民感受到了科技带来的便捷与舒适。二、智慧社区的增值服务与人文关怀智慧社区不仅仅关注科技的运用，更注重为居民提供多元化的增值服务与人文关怀。社区内设有互动LED像素灯、顶层花园控制喷泉等创意设施，不仅美化了社区环境，还增强了居民的归属感与幸福感。同时，社区还提供了智能家居的可选追加项，如空气净化器、远程监控摄像机等，让居民能够根据自己的需求进行个性化选择。智慧社区还充分利用大数据技术，对居民的行为数据进行收集与分析，为居民提供精准化的营销服务。无论是周边的商业信息推送，还是个性化的生活建议，都能让居民感受到社区的智慧与贴心。此外，社区还注重培养居民的环保意识与节能意识，通过智能照明、智能温控等系统的运用，鼓励居民节约资源、保护环境。三、智慧社区的未来发展与无限可能智慧社区的未来发展充满了无限可能。随着技术的不断进步与创新，智慧社区将朝着更加智能化、融合化的方向发展。比如，利用人工智能技术进行社区管理与服务，将能够进一步提升社区的智能化水平；而5G、物联网等新技术的运用，则将让智慧社区的连接更加紧密、服务更加高效。同时，智慧社区还将更加注重居民的体验与需求，通过不断优化智能化设备的功能与服务，让居民享受到更加便捷、舒适的生活。未来，智慧社区将成为人们追求高品质生活的重要选择之一，它不仅是一个居住的空间，更是一个融合了科技、服务、人文关怀的综合性生态系统，让人们的生活更加美好、更加精彩。综上所述，智慧社区整体解决方案以其科技魅力、增值服务与人文关怀以及未来发展潜力，正吸引着越来越多的关注与认可。它不仅能够提升社区的管理效率与居民的生活品质，更能够为社区的可持续发展注入新的活力与动力。

PowerSettingsExplorer.rar: PowerSettingsExplorer.rar 电脑的电源管理软件，明白的不多说。自己搜索即可知道。

2025年开源人工智能：关键参与者与预测.pdf: deepseek最新资讯，配置方法，使用技巧，持续更新中

DeepSeek 发布 Janus Pro AI 图像生成器 – 开源且免费.pdf: deepseek最新资讯、配置方法、使用技巧，持续更新中

消息中间件rabbitmq-server: RabbitMQ 是一个开源的消息代理（Message Broker），实现了 AMQP（Advanced Message Queuing Protocol）协议，用于在分布式系统中实现高效、可靠的消息传递。

西门子S7-1200与汇川PLC新通信选择：Ethernet IP通信的突破与优势，功能安全及精准同步的创新实践 ,西门子S7-1200与汇川PLC通信新选择：Ethernet IP通信方案亮相，替代: 西门子S7-1200与汇川PLC新通信选择：Ethernet IP通信的突破与优势，功能安全及精准同步的创新实践。,西门子S7-1200与汇川PLC通信新选择：Ethernet IP通信方案亮相，替代Modbus TCP实现更高级功能与安全控制。,西门子PLC和汇川PLC新通信选择-西门子S7-1200 1500系列PLC也开始支持Ethernet IP通信了。这为西门子系列的PLC和包括汇川AM400 600等Codesys系PLC的通信提供了新的解决方案。当前两者之间的通信大多采用ModBus TCP通信。 Modbus TCP和EtherNet IP的区别主要是应用层不相同，ModbusTCP的应用层采用Modbus协议，而EtherNetIP采用CIP协议，这两种工业以太网的数据链路层采用的是CSMACCD，因此是标准的以太网，另外，这两种工业以太网的网络层和传输层采用TCPIP协议族。还有一个区别是，Modbus协议中迄今没有协议来完成功能安全、高精度同步和运功控制等，而EtherNet IP有CIPSatety、ClIP Sync和ClPMotion来

自适应无迹卡尔曼滤波AUKF算法：系统估计效果展示与特性分析（含MATLAB代码与Excel数据）,自适应无迹卡尔曼滤波AUKF算法：系统估计效果展示与特性分析（含MATLAB代码与Excel数据）: 自适应无迹卡尔曼滤波AUKF算法：系统估计效果展示与特性分析（含MATLAB代码与Excel数据）,自适应无迹卡尔曼滤波AUKF算法：系统估计效果展示与特性分析（含MATLAB代码与Excel数据）,自适应无迹卡尔曼滤波AUKF算法配套文件包含MATLAB代码+excel数据+学习资料估计效果与系统特性有关，图片展示为一复杂系统估计效果 ,AUKF算法; MATLAB代码; excel数据; 学习资料; 估计效果; 系统特性。,自适应无迹卡尔曼滤波AUKF算法：MATLAB代码与学习资料

基于MATLAB Simscape的IGBT开关特性模型：揭示开关损耗、米勒平台及瞬态行为的分析工具,IGBT开关特性模型与MATLAB Simscape模拟：深入理解开关行为及损耗数据,IGBT开关: 基于MATLAB Simscape的IGBT开关特性模型：揭示开关损耗、米勒平台及瞬态行为的分析工具,IGBT开关特性模型与MATLAB Simscape模拟：深入理解开关行为及损耗数据,IGBT开关特性模型，MATLAB Simscape模型。该模型展示了IGBT的详细的开关模型，用于创建开关损耗列表数据。有助于理解IGBT米勒平台、瞬态开关行为。也可以用于MOOSFET。 ,IGBT开关模型; MATLAB Simscape; 开关损耗; 米勒平台; 瞬态开关行为; MOOSFET。,MATLAB Simscape中IGBT精细开关模型：揭示米勒平台与瞬态行为

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论