首先是安装lxml
doc.xpath()返回一个满足条件的list
# coding=gb2312
from lxml import *
import lxml.html
import urllib2
import lxml.html as H
def getjarinfo(url):
c=urllib2.urlopen(url)
f=c.read()
doc = H.document_fromstring(f)
tables=doc.xpath("//table[@id='xiazai']")
pinpais=doc.xpath("//td[@id='pinpai']")
jixings=doc.xpath("//div[@id='jixing']")
jars = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")
for j in range(len(pinpais)):
print jars[j].get('href')
print pinpais[j].text_content()
print jixings[j].text_content()
e=doc.xpath(u"//div[text()='%s']" % u"游戏介绍")
describe=e[0].getnext().text_content()
#r = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")[0]
#jarurl=r.get('href')
if __name__ == '__main__':
url='http://game.3533.com/game/30862.htm'
getjarinfo(url)
分享到:
相关推荐
`lxml`是Python中一个强大的XML和HTML处理库,它结合了C语言的`libxml2`和`libxslt`库,提供了高速、高效的XML和HTML解析、生成以及XPath、XSLT的支持。在Python生态中,lxml因其出色的性能和丰富的功能而被广泛使用...
# 解析HTML字符串 html = '<html><body><h1>标题</h1></body></html>' doc = fromstring(html) # 使用CSS选择器获取'h1'元素 header = doc.cssselect('h1')[0] print(header.text_content()) ``` ### 4. 应用场景 ...
在本文中,我们将深入探讨如何使用Python的lxml库通过XPath来解析HTML并获取元素。 首先,我们需要导入lxml库中的etree模块,它是lxml的核心接口。在Python代码中,我们通常这样导入: ```python from lxml import...
2. **HTML处理**:`lxml`也支持HTML解析和操作,它使用`html5lib`库来确保HTML5兼容性: ```python from lxml.html import fromstring html_string = '<html><body><h1>Header</h1></body></html>' doc = from...
Python的lxml库是用于处理XML和HTML文档的一个强大库,其版本4.8.0在Odoo包中被广泛使用。这篇文章将深入探讨lxml库的功能、特性以及它在Odoo中的应用。 lxml库结合了Cython优化的ElementTree API和libxml2/libxslt...
lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。
`HTMLParser`不支持XPath或CSS,但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例: ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...
在实际应用中,例如抓取房屋信息,可以利用lxml解析网页源代码,提取出所需的数据。比如,编写一个名为`zhonghui_spider.py`的爬虫脚本,首先使用`requests`库获取网页内容,然后用lxml的`html.fromstring()`函数将...
主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下
Python_lxml库是Python编程语言中的一个高效XML和HTML处理库,它提供了强大的解析、转换以及操作XML文档的能力。这个库是基于libxml2和libxslt这两个C库的,因此在性能上远超标准库的xml.etree.ElementTree。lxml...
- 由于`lxml`底层使用C语言实现,因此其速度远超纯Python的解析库,对于处理大量XML或HTML数据尤其有利。 **6. 集成其他库** - `lxml`库与其他Python库如BeautifulSoup等有良好的兼容性,可以方便地在两者之间切换...
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它...
`lxml2.2` 是一个针对Python编程语言设计的高效且功能丰富的HTML和XML解析器,它基于`libxml2`库构建。`libxml2`是广泛使用的开源XML处理库,提供了丰富的API来处理XML文档。`lxml`库将`libxml2`的功能与Python的...
总结来说,lxml是Python中处理XML和HTML的强大工具,它提供了高效的解析器、灵活的Element对象、XPath和CSS选择器支持以及丰富的文档生成功能。无论是在网络爬虫中解析网页,还是在数据处理中操作XML文档,lxml都能...
- **解析HTML**: lxml库还包含了`lxml.html`模块,专门用于处理HTML文档。它可以自动修复不规范的HTML,并提供类似于XML的API进行解析。 ### 3. ElementTree API lxml库中的ElementTree API是Python标准库Element...
例如,我们可以使用`lxml.html`模块来解析HTML文档,并提取特定元素: ```python from lxml import html # 解析HTML字符串 doc = html.fromstring('<html><body><h1>Hello, World!</h1></body></html>') # 通过...
lxml是Python中用于解析HTML和XML文档的一个高效库。它提供了强大的API,使得开发者能够快速地查找、搜索和提取文档中的特定内容。与正则表达式和BeautifulSoup等其他解析库相比,lxml在处理大型文档时通常具有更快...
本文实例讲述了Python大数据之使用lxml库解析html网页文件。分享给大家供大家参考,具体如下: lxml是Python的一个html/xml解析并建立dom的库,lxml的特点是功能强大,性能也不错,xml包含了ElementTree ,html5lib ...
`Requests-HTML`在此基础上增加了对HTML解析的支持,使得开发者可以在一次请求后立即解析返回的HTML内容,无需额外引入解析库,如BeautifulSoup或lxml。 接下来,我们关注`Requests-HTML`的HTML解析功能。它提供了...
- **解析文件**:使用`lxml.etree.parse()`函数可以解析XML或HTML文件,返回一个`ElementTree`对象。 - **创建元素树**:通过`lxml.etree.Element()`函数可以创建XML元素,并通过`Element.append()`方法添加子元素...