- 浏览: 580445 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (200)
- html css (6)
- javascript (11)
- php (6)
- java基础 (18)
- mysql (8)
- ssh (7)
- linux (21)
- 杂想 (1)
- 搜索引擎 (2)
- linux-shell (2)
- perl (61)
- 单元测试 (1)
- jquery (1)
- xml (1)
- 求职招聘 (1)
- 其他 (2)
- 项目工具 (2)
- maven (10)
- ant (1)
- eclipse (3)
- windows (4)
- java (8)
- jsp (1)
- c c++ (7)
- java-web (3)
- 汇编 (1)
- 正则表达式 (2)
- 网络 (1)
- 路由 (1)
- ip (1)
- 测试驱动开发 (1)
- tdd (1)
- vim (1)
- powermock (1)
- junit (1)
- spring (1)
- spring security (1)
- httpclient (1)
- sql (1)
- sqlserver (2)
- 存储过程 (1)
- apache (1)
- Nexus (1)
- 金融 (1)
- clojure (4)
- 函数式编程 (3)
- 工作 (1)
- git (2)
- java 并发 (1)
- python (1)
- java netty proxy (1)
- scala (1)
最新评论
-
springmvc-freemarker:
可以参考最新的文档:如何在eclipse jee中检出项目并转 ...
eclipse 配置maven web项目 -
zk1878:
huzhenyu 写道楼主很用心,讲得十分清楚,非常实用!呵呵 ...
eclipse 配置maven web项目 -
huzhenyu:
楼主很用心,讲得十分清楚,非常实用!
eclipse 配置maven web项目 -
宋建勇:
不错,对CountDownLatch了解加深了!
java 多线程 CountDownLatch用法 -
zk1878:
必须的。。。。
perl下载图片
原文http://boyun.sh.cn/blog/?p=1042
使用perl实现网页抓取,对网络蜘蛛的初步尝试。
环境
windows xp,IIS,perl 5.88,CMD
使用到的模块
use LWP::Simple; 用来得到网页
use HTML::HeadParser; 对部分进行解析,得到标题、编码、关键词等
use HTML::FormatText::WithLinks; 将html变成文本可读样式
use Encode qw/encode decode/; 解决不同网页的编码问题
需求
在CMD中调试,最后IIS中调用,解析结果要保存到数据库中,数据库中采用utf8编码,解析的网页为gb2312编码,所以理清编码特别重要。
关于编码首先应该弄清楚的概念
- Perl字符串是使用utf8编码的,也就是说读进perl的字符的编码格式都是utf8;
- 读取输入时,perl会自动将其转换为urf8,输出时的编码依据运行环境已经上下游环境。
乱码问题
脚本使用ANSI编码,只是数据库的内容使用decode,结果内容有个别字符乱码,是HTML::FormatText::WithLinks; 将html变成文本可读样式时出现问题。可以算是一个bug
解决方法
脚本实用utf8编码,得到的网页首先进行decode,再进行其他的处理,问题解决,但在cmd下调试的时候,会有“Wide character in print”警告信息,因为环境是gbk,输出urt8编码是会报警,使用encode(”euc-cn”, $value),对输出进行转义,可以解决这个问题,而网上说的加 use encoding “utf-8″; 不能解决这个问题。
其他需要注意的问题
- 调用匹配的内容再去匹配其他内容时,注意对该内容的元字符进行转义;
- 入库的内容也要进行转义;
遗留问题:IIS对perl的支持,配置没有问题,增加了对.pl、.cgi的定义,测试时发现在IE下正常,在firefox下弹出保存文件的对话框,但是以前的.pl正常。估计于haed的输出有关系,还有待于进一步的测试。
encode、decode函数说明
encode函数是用来编码Perl字符串的。它将Perl字符串中的字符用指定的编码格式编码,最终转化为字节流的形式,因此和Perl处理环境之外的事物打交道经常需要它。
其格式很简单:
$octets = encode(ENCODING, $string [, CHECK])
$string: Perl字符串
encoding: 是给定的编码方式
$octets: 是编码之后的字节流
check: 表示转换时如何处理畸变字符(也就是Perl认不出来的字符)。一般不需使用
decode函数则是用来解码字节流的。它按照你给出的编码格式解释给定的字节流,将其转化为使用utf8编码的Perl字符串,一般来说从终端或者文件取得的文本数据都应该用decode转换为Perl字符串的形式。它的格式为:
$string = decode(ENCODING, $octets [, CHECK])
$string、ENCODING、$octets和CHECK的含义同上。
明白如何使用该函数的例子:
use Encode; $dat="测试文本"; $str=decode("gb2312",$dat); @chars=split //,$str; foreach $char (@chars) { print encode("gb2312",$char),"\n"; }
发表评论
-
perl http模块总结
2013-04-04 23:51 5786perl发送http请求主要有 LWP,UserAgent ... -
perl json
2013-04-03 20:51 4117http://search.cpan.org/~makam ... -
perl xml json
2012-09-14 19:52 1297use XML::XML2JSON; ... -
perl源文件编码类型导致乱码问题
2012-09-11 09:28 2323$str = '中国'; chdir 'E:\jo ... -
perl 解析html, 自己写的几个比较常用方法
2012-09-04 20:56 7207perl解析html, 比较常用的模块是 HTML::Tree ... -
perl多进程示例
2012-08-17 15:33 1940以下例子,在主进程生成3个子进程,然后再收割每个子进程,防 ... -
一段实用的perl脚本
2012-08-15 20:53 2366下面的脚本实现了在命令行直接执行perl语句或是执行 ... -
perl发送http请求,easy之极
2012-08-09 23:21 15991perl 发送http 非常之简单,发送get请求 只一 ... -
perl 操作mysql
2012-04-27 07:57 1183use DBI; @driver_names = ... -
Perl 中的线程
2012-03-31 22:19 1478原文:http://www.ibm.com/developer ... -
perl smtp 发送邮件
2012-03-20 23:44 4988原文:http://blog.chinaunix.net/ui ... -
perl开启并关闭w32进程
2012-03-05 16:31 1982perl是个很强大的脚本语言,cpan包罗万象的 ... -
perl发送http请求
2012-02-16 17:51 5210下面是一段perl发送http请求的代码,设置了请求头,表单参 ... -
perl对windows的进程的一些常用操作
2012-02-16 17:52 20661、获取所有正在运行的进程,用到了cpan的Win32::Pr ... -
perl查看已经安装的模块
2012-02-16 17:53 1397use ExtUtils::Installed; my ... -
在Perl调用C/C++代码/动态链接库
2012-02-10 17:46 6415原文http://manew.org/?p=62 perl想 ... -
perl 剪贴板操作
2012-02-09 14:05 1663以下代码设置剪贴板内容为 hello world,然后读取剪贴 ... -
perl 文件目录的创建删除拷贝
2012-01-11 18:03 5279以下三个是核心包提供的 1 unlink @files ... -
perl正则表达式中该注意的一个问题
2011-12-29 00:06 1215请看以下例子 代码1 $a='abc123EEE11 ... -
perl 目录遍历
2011-12-16 10:27 2391使用perl的 File::Find模块,目录遍历将会很简单, ...
相关推荐
在这个"Perl定期抓取PM2.5数据示例"中,我们将探讨如何使用Perl来定期从指定的网页抓取PM2.5(细颗粒物)的空气质量指数,并进行可视化展示,可能包括在用户界面上弹出窗口来提醒用户。 首先,我们需要了解如何在...
标题 "perl特定网页内容" 暗示了我们即将探讨的是使用Perl编程语言来抓取和处理特定网页内容的相关知识。Perl是一种强大的脚本语言,尤其适合文本处理和网络数据抓取,这在Web开发中非常有用。 描述中的链接指向了...
`cron_save_config_new.pl`是核心的Perl脚本,它包含了网络配置抓取的逻辑。通过调用上述的Perl模块,这个脚本可以自动连接到网络设备,收集配置信息,并可能将其保存或备份到本地或远程服务器。用户可以根据需求...
在IT领域,Perl是一种强大的文本处理...通过上述步骤,你就能构建一个能从指定网页中抓取超链接并进行数据挖掘的Perl脚本。记住,始终要遵循网站的robots.txt规则,尊重其爬虫政策,以确保合法和道德的网络爬取行为。
压缩包内的“dictcn.pl”文件很可能是实现这个功能的Perl脚本。打开这个文件,我们可以看到Perl代码,包括如何使用LWP::UserAgent发起请求,如何处理HTTP响应,以及如何解析HTML内容获取字典查询结果。 总的来说,...
在“压缩包子文件的文件名称列表”中提到了“links”,这可能是一个Perl脚本文件,用于管理或处理网页链接。这个脚本可能包含了实现以下功能的代码: 1. 首页链接的生成:Perl脚本可以动态生成首页上的链接,这些...
在网络编程中,Perl可以轻松处理HTTP、FTP等协议,实现网页抓取和自动化任务。同时,Perl还可以与各种数据库系统(如MySQL、PostgreSQL)集成,进行数据的存储和查询。 最后,你将接触到Perl的脚本编写和脚本调用,...
2. **Perl的安装与环境配置**:学习Perl首先需要在计算机上安装Perl解释器,如ActivePerl或 Strawberry Perl,然后配置好环境变量,使得命令行可以顺利执行Perl脚本。 3. **Perl基本语法**:Perl的语法包括变量声明...
如果是数据文件,可能包含了从perl脚本运行结果导出的历史天气数据记录。 综上所述,这个Perl代码项目涉及的知识点有: 1. Perl编程语言基础,包括语法、控制结构、函数等。 2. 网络请求技术,如HTTP库的使用,可能...
本章是关于如何编写网络爬虫的,网络爬虫是自动访问互联网上的网页并获取数据的程序,这在数据抓取和网站内容管理中非常重要。 附录A:LWP模块。在这一部分,作者列出和描述了LWP模块的扩展功能,以供读者参考。 ...
在Perl中,可以使用LWP(Library for WWW in Perl)模块来实现网页抓取。LWP提供了一个HTTP客户端接口,使得程序能够像浏览器一样发送HTTP请求并接收响应。在这个脚本中,LWP可能被用来获取网页的HTML内容。 接着,...
Perl 5是一种功能强大且灵活的脚本语言,广泛应用于多种场景,如文本处理、网站开发、系统管理等。本书通过21天的学习计划,旨在帮助初学者快速掌握Perl 5,并能够运用到实际项目中。 #### 第一部分:Perl 5基础 -...
在调试Perl脚本时,可以使用内置的perl -w命令行选项来开启警告,或者使用Devel::Peek模块查看变量内部结构。对于大型项目,使用版本控制系统如Git管理代码,并配合Test::More等测试框架编写单元测试,是确保代码...
网络编程是PERL应用的重要领域,它使PERL能够与远程服务器交互,实现数据交换、网页抓取、自动化任务等各种功能。 本书详细讲解了PERL在网络编程中的核心概念和实用技术,包括TCP/IP协议基础、套接字编程、HTTP协议...
这个简单的Perl脚本展示了如何利用LWP库处理HTTP请求,实现文件续传功能,这对于大文件下载和网络爬虫中处理断点续传非常有用。通过结合其他Perl模块,如HTML解析器(如HTML::Parser或HTML::TreeBuilder),可以构建...
- **案例2:Web爬虫**:使用Perl编写一个简单的网页爬虫,抓取特定网站的数据。 - **案例3:系统监控脚本**:开发一个Perl脚本来监控服务器上的CPU和内存使用情况,并发送警报邮件。 #### 七、总结 通过上述知识点...
从压缩包中的文件名"www_sj00_com.txt"来看,这可能是一个示例文件,用于展示如何在Perl中进行网络相关的操作,比如抓取网页数据或者分析URL结构。另一个文件"perl24zxt"可能是一个练习或测试文件,配合教程内容,...
Perl脚本可以利用BioPerl等生物信息学工具包来完成这个过程,包括从VCF文件中提取变异信息并查询数据库以获取相关功能信息。 6. **图形化输出**:Perl可以与绘图库如Chart::Gnuplot集成,用于可视化基因组数据,如...
Perl是一种强大的脚本编程语言,尤其在文本处理和系统管理任务方面表现卓越。"114款Perl编写工具"的集合提供了丰富的资源,对于Perl语言的学习者和实践者来说是一份宝贵的资料。这些工具涵盖了各种功能,从数据分析...