HTML Parser 简介[z] - liudaoru - 悟 - ITeye博客

`

liudaoru

浏览: 1582141 次
性别:
来自: 北京

最近访客更多访客>>

fantaxy025025

金武飞扬

2720851545

talkweb_xiang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

nich002：原网站失效了。撸主简单粗暴的复制过来，可读性极差！差评！
Apache配置详解(最好的APACHE配置教程)
107x：不错，谢谢！
LINUX下查看文件夹下的文件个数!
Hypereo：好你妹，连个格式都没有！
Apache配置详解(最好的APACHE配置教程)
resteater：代码排版感觉有点乱！收发信息代码可读性不强！请问第一次发服务器 ...
java socket例子
resteater：代码排版感觉有点乱！收发信息代码可读性不强！请问第一次发服务器 ...
java socket例子

HTML Parser 简介[z]

博客分类：

php

HTML PHP jQuery Google Blog

阅读更多

From: http://zhys9.com/blog/?p=94

终于找到一个不错的html解析工具。。。

要介绍的HTML Parser就是PHP Simple HTML DOM Parser，这个是PHP5版，是根据原作者Jose Solorzano’s 的HTML Parser for PHP 4改写而来的。

或许是喜欢采集数据的伙计们的福音，也是工作需要这个工具是我一个同事发现的，用法很简单：

^?View Code PHP

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
 
// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';
 
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';

Description, Requirement & Features

A HTML DOM parser written in PHP5+ let you manipulate HTML in a very easy way!
Require PHP 5+.
Supports invalid HTML.
Find tags on an HTML page with selectors just like jQuery.
Extract contents from HTML in a single line.

从 sourceforge下载最新版
查看文档 Online Document

分享到：

如何穿越团队协作的五重障碍 | wget手册 wget命令使用方法

2009-07-31 12:13
浏览 1632
评论(2)
查看更多

评论

2 楼 liudaoru 2009-10-13

xbcoil 写道

大哥。这是什么啊。都看不懂

一个php的dom解析工具，我这里只找了一部分说明，你直接看文档吧，很类似xpath。

1 楼 xbcoil 2009-10-13

大哥。这是什么啊。都看不懂

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

benchmark-html-parser-libraries:解析HTML（CPURAM）JavaScript库基准: 日期： 2021-01-19T03:13:42.044Z 图书馆 ms /文件（平均值）模块启动 RAM MB /文件（平均）最大限度头顶高架三角洲 html-dom-parser.js 31.3028毫秒±13.5821ms 6.76851毫秒 49.1兆±4.91兆 53.3兆字节 0....

HTML解析库Beautiful Soup.7z: 标题"HTML解析库Beautiful Soup.7z"表明这是一个关于HTML解析的资源，使用了Python中的Beautiful Soup库。Beautiful Soup是Python中非常流行的一个用于解析HTML和XML文档的库，它简化了网页抓取和数据提取的过程。 ...

微信小程序解析xml的js: DOM是XML和HTML文档的抽象表示，它允许我们通过编程方式访问和修改文档结构。在`dom-parser.js`中，我们可以创建一个`DOMParser`对象，然后使用`parseFromString()`方法将XML字符串转化为DOM对象，例如： ```...

Mpic(PHP图片小偷程序).7z: 2. **HTML解析**：获取到网页内容后，使用DOM解析库（如DOMDocument或PHP Simple HTML DOM Parser）解析HTML结构，找到图片链接。 3. **图像链接提取**：通过CSS选择器或XPath表达式定位到img标签，提取src属性中的...

php-crawl.7z: 另一个常用的库是Simple HTML DOM Parser，它允许开发者通过DOM操作来解析HTML文档，便于提取所需的数据。接着，我们要掌握的是抓取函数。在PHP中，cURL库是一个关键的角色。它能模拟浏览器的行为，发送HTTP请求，...

全站url爬取py源码.7z: soup = BeautifulSoup(html_content, 'html.parser') # 提取并添加新的链接到队列 for link in soup.find_all('a', href=True): new_url = link['href'] if is_valid(new_url): # 检查URL是否有效和在同一个...

Python3爬虫课程资料代码: soup = BeautifulSoup(html_content, 'html.parser') title = soup.find('title').text ``` 3. **re库**: 正则表达式是处理文本的强大工具，常用于提取符合特定模式的数据。例如，查找所有邮箱地址： ```...

linux全志R16的linux系统编译的资料_20170502_1655.7z: libencode-locale-perl libfile-listing-perl libfont-afm-perl libhtml-form-perl libhtml-format-perl libhtml-parser-perl libhtml-tagset-perl libhtml-tree-perl libhttp-cookies-perl libhttp-daemon-perl ...

【Python】网页信息筛选工具: soup = BeautifulSoup(html_content, 'html.parser') paragraphs = soup.find_all('p') for p in paragraphs: print(p.get_text()) ``` 在筛选网页信息时，可能需要处理JavaScript动态加载的内容。这时，可以借助...

NIH抓取Email: 2. **HTML解析**：使用HTML::Parser或HTML::TreeBuilder等模块解析HTML文档，找到包含Email地址的元素。 3. **正则表达式**：编写正则表达式来匹配Email格式，例如：`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z...

lichee_20170502_1607_全志R16的linux系统编译需要改动的文件_使用parrotv1.1的内核_没有外层目录.7z: libencode-locale-perl libfile-listing-perl libfont-afm-perl libhtml-form-perl libhtml-format-perl libhtml-parser-perl libhtml-tagset-perl libhtml-tree-perl libhttp-cookies-perl libhttp-daemon-perl ...

qt例程14.多进程爬虫.7z: 4. **解析器（Parser）**：接收到网页内容后，解析器会提取所需的数据，如HTML标签、链接等。可能使用正则表达式、BeautifulSoup（Python）或Qt的XML模块进行解析。 5. **数据存储**：抓取到的数据通常会被存储在...

java利用htmlparser获取html中想要的代码具体实现: Pattern pattern = Pattern.compile("[\\s\\wa-z\\-]+\\{'songItem':\\{'sid':'([\\d]+)','sname':'([\\s\\S]*)','author':'([\\s\\S]*)'\\}\\}"); Matcher matcher = pattern.matcher(claStr); if (matcher....

获取网页上的e-mail: soup = BeautifulSoup(page_content, 'html.parser') email_candidates = soup.find_all(text=True) ``` `email_candidates`将包含页面上所有文本，下一步是筛选出可能的电子邮件地址。 3. **正则表达式匹配...

z-blog-wx:博客微信小程序版本（微信搜索：程序员技术之旅）: 微信小程序项目介绍小程序版本。微信小程序开源地址： Web端项目开源地址：管理系统开源地址：扫码体验版本信息 v1.2.0(2020/02/11) 使用Parser替换wxParser渲染富文本 ...HTML转小程序原生控件-Parser：

URL高亮与内容解析实现方案: soup = BeautifulSoup(html_content, 'html.parser') paragraphs = soup.find_all('p') ``` 3. **lxml**：lxml是Python的一个高效库，结合了libxml2和libxslt的性能，支持XPath和CSS选择器。获取特定类名的元素...

python网页爬虫--美女网图片爬取: soup = BeautifulSoup(response.text, 'html.parser') # 查找所有标签 img_tags = soup.find_all('img') # 提取并处理图片链接 for img in img_tags: img_url = img['src'] # 如果图片链接是相对路径，需要拼接...

爬虫最新总结: soup = BeautifulSoup(response.text, 'html.parser') element = soup.find('div', {'class': 'example'}) ``` 五、正则表达式在处理复杂的数据抽取时，正则表达式（regex）常常能派上用场。通过`re`模块，你可以...

python 爬虫: soup = BeautifulSoup(response.text, 'html.parser') item_ids = [] for item in soup.find_all('div', class_='p-name'): item_id = item['data-sku'] item_ids.append(item_id) return item_ids ``` ...

jQueryEasyUi培训文档.pdf: return this.optional(element) || /^[a-zA-Z0-9_]+$/.test(value); }, '只能包含字母、数字和下划线'); ``` --- #### 八、Pagination（分页控件） **8.1 概述** Pagination 是一个用于分页显示数据的组件。 *...

Global site tag (gtag.js) - Google Analytics