`
yuhai.china
  • 浏览: 160153 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用python的lxml解析html

阅读更多
首先是安装lxml
doc.xpath()返回一个满足条件的list

# coding=gb2312

from lxml import *
import lxml.html
import urllib2
import lxml.html as H

def getjarinfo(url):
    c=urllib2.urlopen(url)
    
    f=c.read()
    doc = H.document_fromstring(f)
    tables=doc.xpath("//table[@id='xiazai']")    
    pinpais=doc.xpath("//td[@id='pinpai']")
    jixings=doc.xpath("//div[@id='jixing']")
    jars = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")
    for j in range(len(pinpais)):
      print jars[j].get('href')
      print pinpais[j].text_content()         
      print jixings[j].text_content()
    e=doc.xpath(u"//div[text()='%s']" % u"游戏介绍")
    describe=e[0].getnext().text_content()
    #r = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")[0]
    #jarurl=r.get('href')
    
if __name__ == '__main__':
    url='http://game.3533.com/game/30862.htm'
    getjarinfo(url)


分享到:
评论

相关推荐

    python lxml3.8.0 源包

    `lxml`是Python中一个强大的XML和HTML处理库,它结合了C语言的`libxml2`和`libxslt`库,提供了高速、高效的XML和HTML解析、生成以及XPath、XSLT的支持。在Python生态中,lxml因其出色的性能和丰富的功能而被广泛使用...

    Python lxml安装文件

    # 解析HTML字符串 html = '<html><body><h1>标题</h1></body></html>' doc = fromstring(html) # 使用CSS选择器获取'h1'元素 header = doc.cssselect('h1')[0] print(header.text_content()) ``` ### 4. 应用场景 ...

    Python lxml解析HTML并用xpath获取元素的方法

    在本文中,我们将深入探讨如何使用Python的lxml库通过XPath来解析HTML并获取元素。 首先,我们需要导入lxml库中的etree模块,它是lxml的核心接口。在Python代码中,我们通常这样导入: ```python from lxml import...

    python2.7下lxml库下载安装以及代码示例

    2. **HTML处理**:`lxml`也支持HTML解析和操作,它使用`html5lib`库来确保HTML5兼容性: ```python from lxml.html import fromstring html_string = '<html><body><h1>Header</h1></body></html>' doc = from...

    python lxml==4.8.0

    Python的lxml库是用于处理XML和HTML文档的一个强大库,其版本4.8.0在Odoo包中被广泛使用。这篇文章将深入探讨lxml库的功能、特性以及它在Odoo中的应用。 lxml库结合了Cython优化的ElementTree API和libxml2/libxslt...

    lxml 是 Python 的第三方解析库lxml-4.9.3-cp311-cp311-win-amd64

    lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。

    python解析html的几种方法

    `HTMLParser`不支持XPath或CSS,但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例: ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...

    Python程序设计:使用lxml库解析页面.pptx

    在实际应用中,例如抓取房屋信息,可以利用lxml解析网页源代码,提取出所需的数据。比如,编写一个名为`zhonghui_spider.py`的爬虫脚本,首先使用`requests`库获取网页内容,然后用lxml的`html.fromstring()`函数将...

    Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例

    主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下

    python_lxml

    Python_lxml库是Python编程语言中的一个高效XML和HTML处理库,它提供了强大的解析、转换以及操作XML文档的能力。这个库是基于libxml2和libxslt这两个C库的,因此在性能上远超标准库的xml.etree.ElementTree。lxml...

    Python库 | lxml-4.3.4-cp36-cp36m-manylinux1_i686.whl

    - 由于`lxml`底层使用C语言实现,因此其速度远超纯Python的解析库,对于处理大量XML或HTML数据尤其有利。 **6. 集成其他库** - `lxml`库与其他Python库如BeautifulSoup等有良好的兼容性,可以方便地在两者之间切换...

    python3解析库lxml的安装与基本使用

    lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它...

    HTML/XML解析器 lxml2.2 源码

    `lxml2.2` 是一个针对Python编程语言设计的高效且功能丰富的HTML和XML解析器,它基于`libxml2`库构建。`libxml2`是广泛使用的开源XML处理库,提供了丰富的API来处理XML文档。`lxml`库将`libxml2`的功能与Python的...

    python教程lxml详解

    总结来说,lxml是Python中处理XML和HTML的强大工具,它提供了高效的解析器、灵活的Element对象、XPath和CSS选择器支持以及丰富的文档生成功能。无论是在网络爬虫中解析网页,还是在数据处理中操作XML文档,lxml都能...

    python第三方库:lxml

    - **解析HTML**: lxml库还包含了`lxml.html`模块,专门用于处理HTML文档。它可以自动修复不规范的HTML,并提供类似于XML的API进行解析。 ### 3. ElementTree API lxml库中的ElementTree API是Python标准库Element...

    windows-64bit-python3.5-lxml.rar

    例如,我们可以使用`lxml.html`模块来解析HTML文档,并提取特定元素: ```python from lxml import html # 解析HTML字符串 doc = html.fromstring('<html><body><h1>Hello, World!</h1></body></html>') # 通过...

    lxml解析网页.docx

    lxml是Python中用于解析HTML和XML文档的一个高效库。它提供了强大的API,使得开发者能够快速地查找、搜索和提取文档中的特定内容。与正则表达式和BeautifulSoup等其他解析库相比,lxml在处理大型文档时通常具有更快...

    Python大数据之使用lxml库解析html网页文件示例

    本文实例讲述了Python大数据之使用lxml库解析html网页文件。分享给大家供大家参考,具体如下: lxml是Python的一个html/xml解析并建立dom的库,lxml的特点是功能强大,性能也不错,xml包含了ElementTree ,html5lib ...

    Python-RequestsHTMLHumans的HTML解析器

    `Requests-HTML`在此基础上增加了对HTML解析的支持,使得开发者可以在一次请求后立即解析返回的HTML内容,无需额外引入解析库,如BeautifulSoup或lxml。 接下来,我们关注`Requests-HTML`的HTML解析功能。它提供了...

    lxml win32 python

    - **解析文件**:使用`lxml.etree.parse()`函数可以解析XML或HTML文件,返回一个`ElementTree`对象。 - **创建元素树**:通过`lxml.etree.Element()`函数可以创建XML元素,并通过`Element.append()`方法添加子元素...

Global site tag (gtag.js) - Google Analytics