`
liudaoru
  • 浏览: 1578836 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

HTML Parser 简介[z]

    博客分类:
  • php
阅读更多

From: http://zhys9.com/blog/?p=94

 

终于找到一个不错的html解析工具。。。

 

要介绍的HTML Parser就是PHP Simple HTML DOM Parser,这个是PHP5版,是根据原作者Jose Solorzano’s 的HTML Parser for PHP 4改写而来的。

或许是喜欢采集数据的伙计们的福音,也是工作需要这个工具是我一个同事发现的,用法很简单:

?View Code PHP
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
 
// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';
 
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

Description, Requirement & Features

  • A HTML DOM parser written in PHP5+ let you manipulate HTML in a very easy way!
  • Require PHP 5+.
  • Supports invalid HTML.
  • Find tags on an HTML page with selectors just like jQuery.
  • Extract contents from HTML in a single line.

从 sourceforge下载最新版
查看文档 Online Document

分享到:
评论
2 楼 liudaoru 2009-10-13  
xbcoil 写道
大哥。这是什么啊。都看不懂

一个php的dom解析工具,我这里只找了一部分说明,你直接看文档吧,很类似xpath。
1 楼 xbcoil 2009-10-13  
大哥。这是什么啊。都看不懂

相关推荐

    benchmark-html-parser-libraries:解析HTML(CPURAM)JavaScript库基准

    日期: 2021-01-19T03:13:42.044Z 图书馆 ms /文件(平均值) 模块启动 RAM MB /文件(平均) 最大限度 头顶高架 三角洲 html-dom-parser.js 31.3028毫秒±13.5821ms 6.76851毫秒 49.1兆±4.91兆 53.3兆字节 0....

    HTML解析库Beautiful Soup.7z

    标题"HTML解析库Beautiful Soup.7z"表明这是一个关于HTML解析的资源,使用了Python中的Beautiful Soup库。Beautiful Soup是Python中非常流行的一个用于解析HTML和XML文档的库,它简化了网页抓取和数据提取的过程。 ...

    微信小程序解析xml的js

    DOM是XML和HTML文档的抽象表示,它允许我们通过编程方式访问和修改文档结构。在`dom-parser.js`中,我们可以创建一个`DOMParser`对象,然后使用`parseFromString()`方法将XML字符串转化为DOM对象,例如: ```...

    Mpic(PHP图片小偷程序).7z

    2. **HTML解析**:获取到网页内容后,使用DOM解析库(如DOMDocument或PHP Simple HTML DOM Parser)解析HTML结构,找到图片链接。 3. **图像链接提取**:通过CSS选择器或XPath表达式定位到img标签,提取src属性中的...

    php-crawl.7z

    另一个常用的库是Simple HTML DOM Parser,它允许开发者通过DOM操作来解析HTML文档,便于提取所需的数据。 接着,我们要掌握的是抓取函数。在PHP中,cURL库是一个关键的角色。它能模拟浏览器的行为,发送HTTP请求,...

    全站url爬取py源码.7z

    soup = BeautifulSoup(html_content, 'html.parser') # 提取并添加新的链接到队列 for link in soup.find_all('a', href=True): new_url = link['href'] if is_valid(new_url): # 检查URL是否有效和在同一个...

    Python3爬虫课程资料代码

    soup = BeautifulSoup(html_content, 'html.parser') title = soup.find('title').text ``` 3. **re库**: 正则表达式是处理文本的强大工具,常用于提取符合特定模式的数据。例如,查找所有邮箱地址: ```...

    linux全志R16的linux系统编译的资料_20170502_1655.7z

    libencode-locale-perl libfile-listing-perl libfont-afm-perl libhtml-form-perl libhtml-format-perl libhtml-parser-perl libhtml-tagset-perl libhtml-tree-perl libhttp-cookies-perl libhttp-daemon-perl ...

    【Python】网页信息筛选工具

    soup = BeautifulSoup(html_content, 'html.parser') paragraphs = soup.find_all('p') for p in paragraphs: print(p.get_text()) ``` 在筛选网页信息时,可能需要处理JavaScript动态加载的内容。这时,可以借助...

    NIH抓取Email

    2. **HTML解析**:使用HTML::Parser或HTML::TreeBuilder等模块解析HTML文档,找到包含Email地址的元素。 3. **正则表达式**:编写正则表达式来匹配Email格式,例如:`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z...

    lichee_20170502_1607_全志R16的linux系统编译需要改动的文件_使用parrotv1.1的内核_没有外层目录.7z

    libencode-locale-perl libfile-listing-perl libfont-afm-perl libhtml-form-perl libhtml-format-perl libhtml-parser-perl libhtml-tagset-perl libhtml-tree-perl libhttp-cookies-perl libhttp-daemon-perl ...

    qt例程14.多进程爬虫.7z

    4. **解析器(Parser)**:接收到网页内容后,解析器会提取所需的数据,如HTML标签、链接等。可能使用正则表达式、BeautifulSoup(Python)或Qt的XML模块进行解析。 5. **数据存储**:抓取到的数据通常会被存储在...

    java利用htmlparser获取html中想要的代码具体实现

    Pattern pattern = Pattern.compile("[\\s\\wa-z\\-]+\\{'songItem':\\{'sid':'([\\d]+)','sname':'([\\s\\S]*)','author':'([\\s\\S]*)'\\}\\}"); Matcher matcher = pattern.matcher(claStr); if (matcher....

    获取网页上的e-mail

    soup = BeautifulSoup(page_content, 'html.parser') email_candidates = soup.find_all(text=True) ``` `email_candidates`将包含页面上所有文本,下一步是筛选出可能的电子邮件地址。 3. **正则表达式匹配...

    z-blog-wx:博客微信小程序版本(微信搜索:程序员技术之旅)

    微信小程序 项目介绍 小程序版本。 微信小程序开源地址: Web端项目开源地址: 管理系统开源地址: 扫码体验 版本信息 v1.2.0(2020/02/11) 使用Parser替换wxParser渲染富文本 ...HTML转小程序原生控件-Parser:

    URL高亮与内容解析实现方案

    soup = BeautifulSoup(html_content, 'html.parser') paragraphs = soup.find_all('p') ``` 3. **lxml**:lxml是Python的一个高效库,结合了libxml2和libxslt的性能,支持XPath和CSS选择器。获取特定类名的元素...

    python网页爬虫--美女网图片爬取

    soup = BeautifulSoup(response.text, 'html.parser') # 查找所有标签 img_tags = soup.find_all('img') # 提取并处理图片链接 for img in img_tags: img_url = img['src'] # 如果图片链接是相对路径,需要拼接...

    爬虫最新总结

    soup = BeautifulSoup(response.text, 'html.parser') element = soup.find('div', {'class': 'example'}) ``` 五、正则表达式 在处理复杂的数据抽取时,正则表达式(regex)常常能派上用场。通过`re`模块,你可以...

    python 爬虫

    soup = BeautifulSoup(response.text, 'html.parser') item_ids = [] for item in soup.find_all('div', class_='p-name'): item_id = item['data-sku'] item_ids.append(item_id) return item_ids ``` ...

    jQueryEasyUi培训文档.pdf

    return this.optional(element) || /^[a-zA-Z0-9_]+$/.test(value); }, '只能包含字母、数字和下划线'); ``` --- #### 八、Pagination(分页控件) **8.1 概述** Pagination 是一个用于分页显示数据的组件。 *...

Global site tag (gtag.js) - Google Analytics