`

使用perl脚本抓取网页总结

    博客分类:
  • perl
 
阅读更多

原文http://boyun.sh.cn/blog/?p=1042

使用perl实现网页抓取,对网络蜘蛛的初步尝试。

环境

 windows xp,IIS,perl 5.88,CMD

使用到的模块

use LWP::Simple; 用来得到网页
use HTML::HeadParser; 对部分进行解析,得到标题、编码、关键词等
use HTML::FormatText::WithLinks; 将html变成文本可读样式
use Encode qw/encode decode/; 解决不同网页的编码问题

 需求

在CMD中调试,最后IIS中调用,解析结果要保存到数据库中,数据库中采用utf8编码,解析的网页为gb2312编码,所以理清编码特别重要。

关于编码首先应该弄清楚的概念

  • Perl字符串是使用utf8编码的,也就是说读进perl的字符的编码格式都是utf8;
  • 读取输入时,perl会自动将其转换为urf8,输出时的编码依据运行环境已经上下游环境。

 乱码问题

脚本使用ANSI编码,只是数据库的内容使用decode,结果内容有个别字符乱码,是HTML::FormatText::WithLinks; 将html变成文本可读样式时出现问题。可以算是一个bug

 解决方法

脚本实用utf8编码,得到的网页首先进行decode,再进行其他的处理,问题解决,但在cmd下调试的时候,会有“Wide character in print”警告信息,因为环境是gbk,输出urt8编码是会报警,使用encode(”euc-cn”, $value),对输出进行转义,可以解决这个问题,而网上说的加 use encoding “utf-8″; 不能解决这个问题。

 其他需要注意的问题

  •  调用匹配的内容再去匹配其他内容时,注意对该内容的元字符进行转义;
  • 入库的内容也要进行转义;

 遗留问题:IIS对perl的支持,配置没有问题,增加了对.pl、.cgi的定义,测试时发现在IE下正常,在firefox下弹出保存文件的对话框,但是以前的.pl正常。估计于haed的输出有关系,还有待于进一步的测试。

 encode、decode函数说明

 encode函数是用来编码Perl字符串的。它将Perl字符串中的字符用指定的编码格式编码,最终转化为字节流的形式,因此和Perl处理环境之外的事物打交道经常需要它。

其格式很简单:

$octets = encode(ENCODING, $string [, CHECK])

 $string:  Perl字符串

encoding: 是给定的编码方式

$octets:  是编码之后的字节流

check:   表示转换时如何处理畸变字符(也就是Perl认不出来的字符)。一般不需使用

decode函数则是用来解码字节流的。它按照你给出的编码格式解释给定的字节流,将其转化为使用utf8编码的Perl字符串,一般来说从终端或者文件取得的文本数据都应该用decode转换为Perl字符串的形式。它的格式为:

$string = decode(ENCODING, $octets [, CHECK])
$string、ENCODING、$octets和CHECK的含义同上。

明白如何使用该函数的例子:

use Encode;
$dat="测试文本";
$str=decode("gb2312",$dat);
@chars=split //,$str;
foreach $char (@chars) {
print encode("gb2312",$char),"\n";
}
分享到:
评论

相关推荐

    Perl定期抓取PM2.5数据示例

    在这个"Perl定期抓取PM2.5数据示例"中,我们将探讨如何使用Perl来定期从指定的网页抓取PM2.5(细颗粒物)的空气质量指数,并进行可视化展示,可能包括在用户界面上弹出窗口来提醒用户。 首先,我们需要了解如何在...

    perl特定网页内容

    标题 "perl特定网页内容" 暗示了我们即将探讨的是使用Perl编程语言来抓取和处理特定网页内容的相关知识。Perl是一种强大的脚本语言,尤其适合文本处理和网络数据抓取,这在Web开发中非常有用。 描述中的链接指向了...

    perl网络批量抓取配置工具

    `cron_save_config_new.pl`是核心的Perl脚本,它包含了网络配置抓取的逻辑。通过调用上述的Perl模块,这个脚本可以自动连接到网络设备,收集配置信息,并可能将其保存或备份到本地或远程服务器。用户可以根据需求...

    perl网页中所有你想要的超链接收集其中数据

    在IT领域,Perl是一种强大的文本处理...通过上述步骤,你就能构建一个能从指定网页中抓取超链接并进行数据挖掘的Perl脚本。记住,始终要遵循网站的robots.txt规则,尊重其爬虫政策,以确保合法和道德的网络爬取行为。

    用PERL LWP模块实现的一个在线字典脚本

    压缩包内的“dictcn.pl”文件很可能是实现这个功能的Perl脚本。打开这个文件,我们可以看到Perl代码,包括如何使用LWP::UserAgent发起请求,如何处理HTTP响应,以及如何解析HTML内容获取字典查询结果。 总的来说,...

    首页管理Perl(8KB)...

    在“压缩包子文件的文件名称列表”中提到了“links”,这可能是一个Perl脚本文件,用于管理或处理网页链接。这个脚本可能包含了实现以下功能的代码: 1. 首页链接的生成:Perl脚本可以动态生成首页上的链接,这些...

    perl 24小时教程

    在网络编程中,Perl可以轻松处理HTTP、FTP等协议,实现网页抓取和自动化任务。同时,Perl还可以与各种数据库系统(如MySQL、PostgreSQL)集成,进行数据的存储和查询。 最后,你将接触到Perl的脚本编写和脚本调用,...

    24小时学会PERL

    2. **Perl的安装与环境配置**:学习Perl首先需要在计算机上安装Perl解释器,如ActivePerl或 Strawberry Perl,然后配置好环境变量,使得命令行可以顺利执行Perl脚本。 3. **Perl基本语法**:Perl的语法包括变量声明...

    历史天气数据获取perl代码

    如果是数据文件,可能包含了从perl脚本运行结果导出的历史天气数据记录。 综上所述,这个Perl代码项目涉及的知识点有: 1. Perl编程语言基础,包括语法、控制结构、函数等。 2. 网络请求技术,如HTTP库的使用,可能...

    Perl and LWP 高清版

    本章是关于如何编写网络爬虫的,网络爬虫是自动访问互联网上的网页并获取数据的程序,这在数据抓取和网站内容管理中非常重要。 附录A:LWP模块。在这一部分,作者列出和描述了LWP模块的扩展功能,以供读者参考。 ...

    Perl GetFiles:自动从网页下载文件-开源

    在Perl中,可以使用LWP(Library for WWW in Perl)模块来实现网页抓取。LWP提供了一个HTTP客户端接口,使得程序能够像浏览器一样发送HTTP请求并接收响应。在这个脚本中,LWP可能被用来获取网页的HTML内容。 接着,...

    Teach Yourself Perl 5 in 21 days

    Perl 5是一种功能强大且灵活的脚本语言,广泛应用于多种场景,如文本处理、网站开发、系统管理等。本书通过21天的学习计划,旨在帮助初学者快速掌握Perl 5,并能够运用到实际项目中。 #### 第一部分:Perl 5基础 -...

    Linux下的Perl编程

    在调试Perl脚本时,可以使用内置的perl -w命令行选项来开启警告,或者使用Devel::Peek模块查看变量内部结构。对于大型项目,使用版本控制系统如Git管理代码,并配合Test::More等测试框架编写单元测试,是确保代码...

    PERL 网络编程

    网络编程是PERL应用的重要领域,它使PERL能够与远程服务器交互,实现数据交换、网页抓取、自动化任务等各种功能。 本书详细讲解了PERL在网络编程中的核心概念和实用技术,包括TCP/IP协议基础、套接字编程、HTTP协议...

    perl and lwp

    这个简单的Perl脚本展示了如何利用LWP库处理HTTP请求,实现文件续传功能,这对于大文件下载和网络爬虫中处理断点续传非常有用。通过结合其他Perl模块,如HTML解析器(如HTML::Parser或HTML::TreeBuilder),可以构建...

    Perl语言入门 第五版

    - **案例2:Web爬虫**:使用Perl编写一个简单的网页爬虫,抓取特定网站的数据。 - **案例3:系统监控脚本**:开发一个Perl脚本来监控服务器上的CPU和内存使用情况,并发送警报邮件。 #### 七、总结 通过上述知识点...

    Perl 24 小时自学通(PDF).rar

    从压缩包中的文件名"www_sj00_com.txt"来看,这可能是一个示例文件,用于展示如何在Perl中进行网络相关的操作,比如抓取网页数据或者分析URL结构。另一个文件"perl24zxt"可能是一个练习或测试文件,配合教程内容,...

    Genomic Perl example

    Perl脚本可以利用BioPerl等生物信息学工具包来完成这个过程,包括从VCF文件中提取变异信息并查询数据库以获取相关功能信息。 6. **图形化输出**:Perl可以与绘图库如Chart::Gnuplot集成,用于可视化基因组数据,如...

    114款perl编写工具

    Perl是一种强大的脚本编程语言,尤其在文本处理和系统管理任务方面表现卓越。"114款Perl编写工具"的集合提供了丰富的资源,对于Perl语言的学习者和实践者来说是一份宝贵的资料。这些工具涵盖了各种功能,从数据分析...

Global site tag (gtag.js) - Google Analytics