使用python的lxml解析html - yuhai.china - ITeye博客

`

yuhai.china

浏览: 161304 次
性别:
来自: 北京

最近访客更多访客>>

erpaoshouling

leiwuhenfan

clanmei

CURRY_LI

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiebo1983： http://sqkoo.com/mysql-function ...
java和mysql日期技巧
di1984HIT： OK，写的不错啊，我来用用
hbase 0.20 client编程
killua_hzl：请问你调用FileProcess部分是否正常？
使用python调用计算所分词系统ICTCLAS30
ynnuyili： ...
使用FileUpload上传文件
gavine： [u][/u]
java写excel文件

使用python的lxml解析html

HTML Python 游戏 J#C

阅读更多

首先是安装lxml
doc.xpath()返回一个满足条件的list

# coding=gb2312

from lxml import *
import lxml.html
import urllib2
import lxml.html as H

def getjarinfo(url):
    c=urllib2.urlopen(url)
    
    f=c.read()
    doc = H.document_fromstring(f)
    tables=doc.xpath("//table[@id='xiazai']")    
    pinpais=doc.xpath("//td[@id='pinpai']")
    jixings=doc.xpath("//div[@id='jixing']")
    jars = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")
    for j in range(len(pinpais)):
      print jars[j].get('href')
      print pinpais[j].text_content()         
      print jixings[j].text_content()
    e=doc.xpath(u"//div[text()='%s']" % u"游戏介绍")
    describe=e[0].getnext().text_content()
    #r = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")[0]
    #jarurl=r.get('href')
    
if __name__ == '__main__':
    url='http://game.3533.com/game/30862.htm'
    getjarinfo(url)

分享到：

python利用pycurl做get | libsvm使用入门

2009-02-04 15:53
浏览 10035
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python lxml3.8.0 源包: `lxml`是Python中一个强大的XML和HTML处理库，它结合了C语言的`libxml2`和`libxslt`库，提供了高速、高效的XML和HTML解析、生成以及XPath、XSLT的支持。在Python生态中，lxml因其出色的性能和丰富的功能而被广泛使用...

Python lxml安装文件: # 解析HTML字符串 html = '<html><body><h1>标题</h1></body></html>' doc = fromstring(html) # 使用CSS选择器获取'h1'元素 header = doc.cssselect('h1')[0] print(header.text_content()) ``` ### 4. 应用场景 ...

Python lxml解析HTML并用xpath获取元素的方法: 在本文中，我们将深入探讨如何使用Python的lxml库通过XPath来解析HTML并获取元素。首先，我们需要导入lxml库中的etree模块，它是lxml的核心接口。在Python代码中，我们通常这样导入： ```python from lxml import...

python2.7下lxml库下载安装以及代码示例: 2. **HTML处理**：`lxml`也支持HTML解析和操作，它使用`html5lib`库来确保HTML5兼容性： ```python from lxml.html import fromstring html_string = '<html><body><h1>Header</h1></body></html>' doc = from...

python lxml==4.8.0: Python的lxml库是用于处理XML和HTML文档的一个强大库，其版本4.8.0在Odoo包中被广泛使用。这篇文章将深入探讨lxml库的功能、特性以及它在Odoo中的应用。 lxml库结合了Cython优化的ElementTree API和libxml2/libxslt...

lxml 是 Python 的第三方解析库lxml-4.9.3-cp311-cp311-win-amd64: lxml 是 Python 的第三方解析库，完全使用 Python 语言编写，它对 Xpath 表达式提供了良好的支持，因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。

python解析html的几种方法: `HTMLParser`不支持XPath或CSS，但它可以通过自定义事件处理函数来解析HTML并执行特定的操作。以下是一个基本示例： ```python from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_...

Python程序设计：使用lxml库解析页面.pptx: 在实际应用中，例如抓取房屋信息，可以利用lxml解析网页源代码，提取出所需的数据。比如，编写一个名为`zhonghui_spider.py`的爬虫脚本，首先使用`requests`库获取网页内容，然后用lxml的`html.fromstring()`函数将...

Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例: 主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下

python_lxml: Python_lxml库是Python编程语言中的一个高效XML和HTML处理库，它提供了强大的解析、转换以及操作XML文档的能力。这个库是基于libxml2和libxslt这两个C库的，因此在性能上远超标准库的xml.etree.ElementTree。lxml...

Python库 | lxml-4.3.4-cp36-cp36m-manylinux1_i686.whl: - 由于`lxml`底层使用C语言实现，因此其速度远超纯Python的解析库，对于处理大量XML或HTML数据尤其有利。 **6. 集成其他库** - `lxml`库与其他Python库如BeautifulSoup等有良好的兼容性，可以方便地在两者之间切换...

python3解析库lxml的安装与基本使用: lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它...

HTML/XML解析器 lxml2.2 源码: `lxml2.2` 是一个针对Python编程语言设计的高效且功能丰富的HTML和XML解析器，它基于`libxml2`库构建。`libxml2`是广泛使用的开源XML处理库，提供了丰富的API来处理XML文档。`lxml`库将`libxml2`的功能与Python的...

python教程lxml详解: 总结来说，lxml是Python中处理XML和HTML的强大工具，它提供了高效的解析器、灵活的Element对象、XPath和CSS选择器支持以及丰富的文档生成功能。无论是在网络爬虫中解析网页，还是在数据处理中操作XML文档，lxml都能...

python第三方库：lxml: - **解析HTML**: lxml库还包含了`lxml.html`模块，专门用于处理HTML文档。它可以自动修复不规范的HTML，并提供类似于XML的API进行解析。 ### 3. ElementTree API lxml库中的ElementTree API是Python标准库Element...

windows-64bit-python3.5-lxml.rar: 例如，我们可以使用`lxml.html`模块来解析HTML文档，并提取特定元素： ```python from lxml import html # 解析HTML字符串 doc = html.fromstring('<html><body><h1>Hello, World!</h1></body></html>') # 通过...

lxml解析网页.docx: lxml是Python中用于解析HTML和XML文档的一个高效库。它提供了强大的API，使得开发者能够快速地查找、搜索和提取文档中的特定内容。与正则表达式和BeautifulSoup等其他解析库相比，lxml在处理大型文档时通常具有更快...

Python大数据之使用lxml库解析html网页文件示例: 本文实例讲述了Python大数据之使用lxml库解析html网页文件。分享给大家供大家参考，具体如下： lxml是Python的一个html/xml解析并建立dom的库，lxml的特点是功能强大，性能也不错，xml包含了ElementTree ，html5lib ...

Python-RequestsHTMLHumans的HTML解析器: `Requests-HTML`在此基础上增加了对HTML解析的支持，使得开发者可以在一次请求后立即解析返回的HTML内容，无需额外引入解析库，如BeautifulSoup或lxml。接下来，我们关注`Requests-HTML`的HTML解析功能。它提供了...

lxml win32 python: - **解析文件**：使用`lxml.etree.parse()`函数可以解析XML或HTML文件，返回一个`ElementTree`对象。 - **创建元素树**：通过`lxml.etree.Element()`函数可以创建XML元素，并通过`Element.append()`方法添加子元素...

Global site tag (gtag.js) - Google Analytics