最近想用php写一个爬虫,就需要解析html,在sourceforge上找到一个项目叫做PHP Simple HTML DOM Parser,它可以以类似jQuery的方式通过css选择器来返回指定的DOM元素,功能十分强大。
首先要在程序的开始引入simple_html_dom.php这个文件
include_once('simple_html_dom.php');
PHP Simple HTML DOM Parser提供了3种方式来创建DOM对象
// Create a DOM object from a string
$html = str_get_html('<html><body>Hello!</body></html>');
// Create a DOM object from a URL
$html = file_get_html('http://www.google.com/');
// Create a DOM object from a HTML file
$html = file_get_html('test.htm');
得到DOM对象后就可以进行各种操作了
// Find all anchors, returns a array of element objects
$ret = $html->find('a');
// Find (N)th anchor, returns element object or null if not found (zero based)
$ret = $html->find('a', 0);
// Find lastest anchor, returns element object or null if not found (zero based)
$ret = $html->find('a', -1);
// Find all <div> with the id attribute
$ret = $html->find('div[id]');
// Find all <div> which attribute id=foo
$ret = $html->find('div[id=foo]');
这里可以使用各种css选择器,就像在jQuery中进行DOM操作一样,非常方便。此外,还有两个特殊的属性可以得到文本和注释的内容
// Find all text blocks
$es = $html->find('text');
// Find all comment (<!--...-->) blocks
$es = $html->find('comment');
当然,还是类似于jQuery,PHP Simple HTML DOM Parser也支持链式操作,以及各种访问DOM元素的简单方法
查看源码打印关于
// Example
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id;
// or
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id');
分享到:
相关推荐
本文将深入探讨"PHP解析HTML代码库",包括其核心概念、用途以及如何使用。 1. **核心概念**: - **DOM(Document Object Model)**: DOM是HTML和XML文档的标准表示方法,它将文档视为一个可编程的对象树。PHP中的`...
1. **解析HTML5文档**:将HTML5字符串或文件解析为DOMDocument对象,方便进一步处理。 2. **创建和修改元素**:动态创建新的HTML元素,或者修改现有元素的属性和内容。 3. **选择和遍历元素**:使用XPath或CSS选择器...
本文将深入探讨“phphtmlparser”这一专门用于PHP的HTML解析工具,包括其基本原理、功能特性以及实际应用案例,旨在帮助读者更好地理解和使用这一工具。 一、PHPHTMLParser简介 PHPHTMLParser是一款开源的PHP库,...
PHP解析器是用于处理PHP(Hypertext Preprocessor)源代码的软件...总的来说,PHP解析器是PHP编程中不可或缺的一部分,它使得开发者能够用PHP编写出强大的Web应用程序,并通过不断的优化和更新,确保代码的高效运行。
用于解析HTML DOM的PHP组件,解析起来非常方便
本篇文章将深入探讨如何使用PHP解析包含数学公式、图片以及数字上下标的Word文档。 1. **PHP与Word文档解析** PHP可以借助一些开源库来解析Word文档,如PHPWord、PHPDocX等。这些库允许开发者读取、创建和编辑Word...
在Web开发领域,解析HTML文档是一项常见的任务。PHP Simple HTML DOM Parser是一款强大的库,它简化了这一过程,使得开发者能够更加高效地处理HTML文档。该库适用于PHP 5及更高版本,不仅能够解析符合标准的HTML文档...
《深入理解PHP Simple HTML DOM解析库》 在PHP开发中,处理HTML文档是一项常见的任务,尤其是在进行网页抓取或网页内容分析时。PHP Simple HTML DOM Parser是一个轻量级且易于使用的库,它允许开发者像操作DOM对象...
以上就是关于“php(解析*.php文件)”的相关知识点,包括PHP解析器的工作原理、Apache的配置、MySQL的使用、Zend Engine的作用,以及如何在Windows环境下安装和配置PHP 5.2.0。掌握这些内容,你就能搭建起一个基本的...
**解析Word读取** Aspose.Word提供了详细的API,可以方便地读取Word文档的各个方面。例如,你可以通过以下步骤来读取一个Word文档: 1. 创建`Document`对象:首先,你需要创建一个`Document`实例,传入Word文档的...
1. 解析HTML5文档:通过加载HTML字符串或URL,将其转化为DOM树。 2. 查找元素:利用XPath或CSS选择器查找文档中的特定元素。 3. 修改元素:添加、删除或修改元素属性、文本内容,甚至整个元素结构。 4. 清理和修复...
这可能需要使用到PHP的DOM解析库(如DOMDocument和DOMXPath)来解析HTML,提取相关信息,或者使用随机化策略改变请求头以避免被识别为机器人。 在实际的代码实现中,可能还会涉及到错误处理和日志记录,确保在解析...
simple_html_dom.php(php解析html类库),可以通过这个php类来解析html文档,对其中的html元素进行操作 (PHP5+以上版本)。
1. **HTML解析**:首先,源码会解析HTML内容,这通常通过DOM解析器完成,如PHP的DOMDocument类,它可以将HTML字符串转换为结构化的DOM树。 2. **CSS处理**:解析CSS样式,以确定文本、颜色、布局等元素的呈现方式。...
### PHP解析XML文档知识点 #### 一、XML简介与特性 - **定义**:XML(Extensible Markup Language),即可扩展标记语言,是一种用于描述数据的标记语言,它允许用户自定义标签,使得数据的组织更为灵活且具有高度...
本文将深入探讨如何使用PHP实现Word文档到HTML的转换,主要基于提供的"php word转html格式类"的描述,即`ms-word-html-cleaner.php`这个文件。 标题中的“php word转html格式类”指的是一个PHP类,它的主要功能是...
PHP解析类是实现TPL模板的关键组件,它负责读取模板文件,解析其中的PHP代码,然后将其渲染为HTML输出。解析过程通常包括以下步骤: 1. **加载模板文件**:解析类首先需要找到指定的TPL模板文件,这通常通过模板...
在IT行业中,PHP是一种广泛使用的服务器端脚本语言,...通过这种方式,你可以利用PHP解析EML文件,将其内容展示在网页上,同时保存附件供后续使用。这个实例对于处理用户上传的邮件文件或自动化处理邮件服务非常有用。
在PHP中,DOM(Document Object Model)是一种标准的解析XML和HTML文档的接口,它允许开发者以树形结构处理文档内容。PHP的DOM扩展提供了一系列的类和函数,用于创建、遍历和修改DOM对象。在给定的“php dom 解析类...
QQ空间PHP解析与登录QQ空间的PHP实现是一个常见的Web开发技术话题,主要涉及到PHP编程语言在社交网络应用中的运用。这个"qzone.rar"压缩包包含了一份PHP源码,允许用户通过PHP脚本直接在QQ空间上增加留言,且无需...