- 浏览: 578439 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (200)
- html css (6)
- javascript (11)
- php (6)
- java基础 (18)
- mysql (8)
- ssh (7)
- linux (21)
- 杂想 (1)
- 搜索引擎 (2)
- linux-shell (2)
- perl (61)
- 单元测试 (1)
- jquery (1)
- xml (1)
- 求职招聘 (1)
- 其他 (2)
- 项目工具 (2)
- maven (10)
- ant (1)
- eclipse (3)
- windows (4)
- java (8)
- jsp (1)
- c c++ (7)
- java-web (3)
- 汇编 (1)
- 正则表达式 (2)
- 网络 (1)
- 路由 (1)
- ip (1)
- 测试驱动开发 (1)
- tdd (1)
- vim (1)
- powermock (1)
- junit (1)
- spring (1)
- spring security (1)
- httpclient (1)
- sql (1)
- sqlserver (2)
- 存储过程 (1)
- apache (1)
- Nexus (1)
- 金融 (1)
- clojure (4)
- 函数式编程 (3)
- 工作 (1)
- git (2)
- java 并发 (1)
- python (1)
- java netty proxy (1)
- scala (1)
最新评论
-
springmvc-freemarker:
可以参考最新的文档:如何在eclipse jee中检出项目并转 ...
eclipse 配置maven web项目 -
zk1878:
huzhenyu 写道楼主很用心,讲得十分清楚,非常实用!呵呵 ...
eclipse 配置maven web项目 -
huzhenyu:
楼主很用心,讲得十分清楚,非常实用!
eclipse 配置maven web项目 -
宋建勇:
不错,对CountDownLatch了解加深了!
java 多线程 CountDownLatch用法 -
zk1878:
必须的。。。。
perl下载图片
原文:http://bbs.chinaunix.net/thread-976314-1-1.html
HTML::TreeBuilder
这个解析模块使用了强大的 HTML::Element 模块。解析时,HTML::TreeBuilder模块把整个 html 文档转换成了 perl 的数据结构,可以进行任意的操作。
使用时先创建一个 HTML::TreeBuilder 对象。
use Data::Dumper qw(Dumper);
$Data::Dumper::Indent = 1;
use HTML::TreeBuilder;
my $tree = new HTML::TreeBuilder;
直接向 HTML::TreeBuilder 传递文件好像会把中文转换成 unicode 的字符,所以一般传递文件句柄。而且传递的字符串或者句柄一般要先确保是 utf8 字符串才行,不然会有一个warning:
Parsing of undecoded UTF-8 will give garbage when decoding entities at /home/ywb/temp/t.pl line 16, <DATA> line 5.
解析文件和解析字符串的区别仅仅是前者是使用 parse_file 函数,而后者使用parse 函数。下面以解析文件句柄的例子:
binmode DATA, "utf8";
$tree->parse_file(\*DATA);
print Dumper($tree), "\n";
__DATA__
<table border="1" cellspacing="0" cellpadding="6">
<tr><td><a href="x">x</a></td><td><a href="y">y</a></td></tr>
<tr><td>1</td><td>2</td></tr>
</table>
要提取出表格中的内容可以这样:
foreach my $row ( $tree->find_by_tag_name("tr") ) {
foreach my $cell ( $row->content_list ) {
print $cell->as_text, "\t";
}
print "\n";
}
由于 HTML::Element 会强制把所有的 tag 都转换成小写,所以不用担心 tag的大小写问题。HTML::TokenParser和
HTML::Parser 等模块不同,HTML::TokenParser 模块是类似于流(stream oftokens)的方式来解析 HTML
文件。在解析的过程中 HTML 中的文本转换成这六种token:
["S", $tag, $attr, $attrseq, $text]
["E", $tag, $text]
["T", $text, $is_data]
["C", $text]
["D", $text]
["PI", $token0, $text]
这个例子应该能够体现这个模块解析的一些特点:
use HTML::TokeParser;
my $file = \*DATA;
my $parser = HTML::TokeParser->new($file)
or die "Can't open $file: $!\n";
my (@table, @row, $inrow);
while (my $token = $parser->get_token( )) {
my $type = $token->[0];
if ( $type eq 'T' ) {
push @row, $token->[1] if $inrow;
}
elsif ( $type eq 'S' ) {
if ( $token->[1] eq 'tr' ) {
$inrow = 1;
}
}
elsif ( $type eq 'E' ) {
if ( $token->[1] eq 'tr' ) {
push @table, [@row]; # 注意这一行不能用 \@row
@row = ();
$inrow = 0;
}
}
}
print Dumper(\@table), "\n";
__DATA__
<table border="1" cellspacing="0" cellpadding="6">
<tr><td><a href="x">x</a></td><td><a href="y">y</a></td></tr>
<tr><td>1</td><td>2</td></tr>
</table>
与前面 HTML::TreeBuilder 的例子相比可能有些麻烦,但是很多情况下,只需要一次处理一个 token,这时候用这个模块就非常方便了,比如你要得到一个html 里所有的图片或者所有的链接,像这样写就行了:
my @images;
while (my $token = $parser->get_token( )) {
my $type = $token->[0];
if ( $type eq 'S' ) {
if ( $token->[1] eq 'img' ) {
push @images, $token->[2];
}
}
}
__DATA__
<img src="/perl6.jpg" alt="Steroidal Camel">
专门的模块HTML::LinkExtor如果要提取 html 文件中的链接,也不用自己写了,用 HTML::LinkExtor 就好了。一个简单的例子:
require HTML::LinkExtor;
my $p = HTML::LinkExtor->new();
$p->parse_file(\*DATA);
print Dumper($p->links), "\n";
__DATA__
<a href="xlink">x</a>
<img src="/perl6.jpg" alt="Steroidal Camel">
HTML::LinkExtor 的 new 函数可以提供一个 callback
函数,这个函数是当发现链接时就调用这个函数。传递给这个函数的第一个参数是链接的类型,比如 'a','img',其余的参数是链接的属性。如果提供了
callback 函数,HTML::LinkExtor 就不再累积链接了,这意味着你不能再用 links
函数来得到所有的链接。要得到所有链接,只有在 callback 函数里自己保存好。
require HTML::LinkExtor;
my $p = HTML::LinkExtor->new(\&cb);
$p->parse_file(\*DATA);
sub cb {
my($tag, %links) = @_;
print Dumper($tag, \%links), "\n";
}
__DATA__
<a href="xlink">x</a>
<img src="/perl6.jpg" alt="Steroidal Camel">
HTML::HeadParser如果只是要得到 html 的标题或者其它在 head 标签之间内容,就不要用HTML::TreeBuilder 这样的重量级模块了,HTML::HeadParser 模块就能完成这个任务,并且使用相当简单。
require HTML::HeadParser;
my $p = HTML::HeadParser->new;
my $text = join('', <DATA>);
$p->parse($text) and print "not finished";
# to access <title>....</title>
print "Title: ", $p->header('Title'), "\n";
# to access <base href="http://...">
print "Base: ", $p->header('Content-Base'), "\n";
# to access <meta http-equiv="Foo" c>
print "Content type:", $p->header('Content-Type'), "\n";
# to access <meta name="Foo" c>
print "Author:", $p->header('X-Meta-Author'), "\n";
print Dumper($p->header), "\n";
__DATA__
<head>
<title>test</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<meta name="generator" content="Org-mode"/>
<meta name="author" content="Ye Wenbin"/>
<style type="text/css">
.title { text-align: center; }
</style>
<script language='JavaScript' src='/js/iceajax.js' TYPE='text/javascript'></script>
<link rel=stylesheet href="core.css" type="text/css">
</head>
可以看出它不能解析出 script、link、style 这样的标签。
HTML::TableExtractHTML::TableExtract 只能从 html 中提取出 table 里的内容。如果只要这个,那么这个模块是很容易使用的。
use HTML::TableExtract;
use Data::Dumper qw(Dumper);
my $html_string = join("", <DATA>);
$te = HTML::TableExtract->new();
$te->parse($html_string);
print Dumper($te), "\n";
foreach $ts ($te->tables) {
print "Table (", join(',', $ts->coords), "):\n";
foreach $row ($ts->rows) {
print join(',', @$row), "\n";
}
}
__DATA__
<table border="1" cellspacing="0" cellpadding="6">
<tr><td><a href="x">x</a></td><td><a href="y">y</a></td></tr>
<tr><td>1</td><td>2</td></tr>
</table>
由这个例子可以看出,解析后链接信息都丢失了。但是表格里的内容是很容易得到的。
发表评论
-
perl http模块总结
2013-04-04 23:51 5774perl发送http请求主要有 LWP,UserAgent ... -
perl json
2013-04-03 20:51 4113http://search.cpan.org/~makam ... -
perl xml json
2012-09-14 19:52 1280use XML::XML2JSON; ... -
perl源文件编码类型导致乱码问题
2012-09-11 09:28 2299$str = '中国'; chdir 'E:\jo ... -
perl 解析html, 自己写的几个比较常用方法
2012-09-04 20:56 7202perl解析html, 比较常用的模块是 HTML::Tree ... -
perl多进程示例
2012-08-17 15:33 1922以下例子,在主进程生成3个子进程,然后再收割每个子进程,防 ... -
一段实用的perl脚本
2012-08-15 20:53 2345下面的脚本实现了在命令行直接执行perl语句或是执行 ... -
perl发送http请求,easy之极
2012-08-09 23:21 15985perl 发送http 非常之简单,发送get请求 只一 ... -
perl 操作mysql
2012-04-27 07:57 1179use DBI; @driver_names = ... -
Perl 中的线程
2012-03-31 22:19 1472原文:http://www.ibm.com/developer ... -
perl smtp 发送邮件
2012-03-20 23:44 4985原文:http://blog.chinaunix.net/ui ... -
perl开启并关闭w32进程
2012-03-05 16:31 1976perl是个很强大的脚本语言,cpan包罗万象的 ... -
perl发送http请求
2012-02-16 17:51 5187下面是一段perl发送http请求的代码,设置了请求头,表单参 ... -
perl对windows的进程的一些常用操作
2012-02-16 17:52 20561、获取所有正在运行的进程,用到了cpan的Win32::Pr ... -
perl查看已经安装的模块
2012-02-16 17:53 1381use ExtUtils::Installed; my ... -
在Perl调用C/C++代码/动态链接库
2012-02-10 17:46 6407原文http://manew.org/?p=62 perl想 ... -
perl 剪贴板操作
2012-02-09 14:05 1645以下代码设置剪贴板内容为 hello world,然后读取剪贴 ... -
perl 文件目录的创建删除拷贝
2012-01-11 18:03 5257以下三个是核心包提供的 1 unlink @files ... -
perl正则表达式中该注意的一个问题
2011-12-29 00:06 1198请看以下例子 代码1 $a='abc123EEE11 ... -
perl 目录遍历
2011-12-16 10:27 2370使用perl的 File::Find模块,目录遍历将会很简单, ...
相关推荐
这个模块可能提供了一种解析Pod文档到其他格式(如HTML、man页等)的工具。 总的来说,Perl编写的Makefile解析器对于理解和优化Makefile的构建过程具有很高的价值,它可以简化复杂的构建任务,提高开发效率,同时也...
这个模块包含了处理HTTP请求、解析查询字符串、生成HTML表单以及管理cookie等功能。CGI.pm的版本为3.65,这表明它是经过多次迭代和优化的,旨在提高稳定性和兼容性。 在Perl下编写CGI程序时,首先需要导入CGI模块。...
10. **HTML::Parser**: 解析HTML文档的模块,可能用于处理或验证输入的HTML内容。 11. **Encode**: 用于字符编码转换,确保多语言支持。 12. **Text::Wrap**: 用于文本换行和格式化,可能在生成邮件或报告时使用。...
标签"html_parser"、"parser_perl"、"perl_html"进一步明确了这个模块的核心功能,即它是一个用Perl编写的HTML解析器。 在压缩包内的文件列表中,"www.pudn.com.txt"可能是一个包含有关下载来源或使用模块时的额外...
3. HTML解析器:LWP通常配合HTML解析模块如HTML::Parser或HTML::TreeBuilder使用,以便提取网页中的有用信息。 4. 代理支持:LWP模块也支持通过HTTP代理进行网络访问,这对于在某些受限制的网络环境下工作非常重要...
2. **结合Perl模块**:虽然Html2perl已经提供了基本的HTML处理能力,但结合其他Perl HTML解析模块,如HTML::Parser或HTML::TreeBuilder,可以实现更复杂的HTML处理。 3. **错误处理**:在使用Html2perl时,要注意...
手册中涵盖了Perl语言的基础到高级概念,包括语法、函数、模块和最佳实践。 首先,Perl语言以其独特的语法而闻名,如其“珍珠”般的命名,源自“Practical Extraction and Report Language”的首字母缩写。它的语法...
在实际项目中,了解如何有效地使用Perl模块,如DBI(数据库接口)进行数据库操作,LWP(Library for WWW in Perl)进行网络请求,以及XML::Parser解析XML文档,都是提高效率的关键。 总之,Perl 5 是一款功能强大的...
通常,这种任务会涉及正则表达式、HTTP请求库如LWP::UserAgent以及HTML解析模块如HTML::TreeBuilder或Mojo::DOM。 在标签中,"源码"可能是指我们将看到具体的Perl代码示例,而"工具"可能指的是Perl中用于网页抓取的...
1. **rvp.pod.html**:可能是Perl文档(POD)格式的HTML版本,用于解释rvp模块的用法和功能。 2. **synth_make.pl**:可能是一个合成脚本,用于将Verilog代码转换为硬件描述的逻辑网表,这是FPGA或ASIC设计流程的一...
4. **扩展模块**:Perl有许多用于处理地理空间数据的模块,如Geo::GDAL和Geo::Proj4,它们可能在PostGIS的高级应用中被用到,如复杂的地理计算或地图渲染。 在离线安装PostGIS时,确保Perl已正确安装且版本与...
Perl鼓励模块化编程方式,通过创建和使用模块来组织代码,提高可维护性和复用性: ```perl use MyModule; MyModule::function(); ``` ### 高级主题 #### 参考变量 Perl中的引用是一种指向变量的变量,可以用来...
通过以上内容可以看出,《Perl编程思想》一书覆盖了Perl语言在Web开发领域的多个方面,从基础的CGI技术到高级的mod_perl模块,以及模板系统Mason和快速开发框架Maypole等,同时还介绍了Perl在文本解析和生物信息学等...
9. **网络数据解析**:Perl的正则表达式功能强大,可以方便地解析网络数据,如HTML、XML或JSON格式的响应。 10. **并发与异步编程**:Perl支持线程和异步I/O,如`threads`和`IO::Async`模块,可以实现并行处理多个...
Perl的名称是"Practical Extraction and Reporting Language"(实用提取和报告语言)的首字母缩写,它最初设计用于文本处理,尤其是处理和解析日志文件。Perl的特点包括自由形式的语法,类似于C语言的结构,以及对...
Perl-HTML-MyHTML 是一个基于Perl语言的高效HTML解析器,它专为速度和线程安全性而设计,不依赖于任何外部库。这个解析器是Perl社区的一个重要贡献,对于处理HTML文档,特别是需要在多线程环境中进行快速解析的情况...
- **XML和HTML处理**:Perl5有强大的XML和HTML解析库,适用于数据交换和网页抓取。 - **生物信息学**:Perl5在基因序列分析、生物数据库操作等方面有广泛应用。 通过本《Perl5语言全教程》,你可以系统学习并掌握...
7. **perlfunc和perlop**:这两个章节深入解析了Perl的函数和运算符,是理解Perl语言细节的关键。 8. **perlmod和perlmodlib**:介绍Perl模块的创建和使用,以及如何利用@INC路径来加载模块。 9. **perlstyle**:...
首先,我们需要了解Perl的基础语法,然后学习如何利用Perl的LWP(Library for WWW in Perl)模块来获取网页源码,接着是HTML解析库如HTML::TreeBuilder或HTML::Parser,它们帮助我们解析和遍历HTML文档,找到超链接...
本章介绍了使用标记解析技术来处理HTML文档的方法,这是另一种比正则表达式更为稳定的HTML解析方式。 第八章:标记解析详细步骤。本章进一步详细说明了如何进行标记解析,帮助读者加深对第七章内容的理解。 第九章...