最新文章列表

模拟nokie手机访问百度

$tra=new tra(); $my_header2=array('User-Agent'=>'Nokia7250I/1.0 (3.22) Profile/MIDP-1.0 Configuration/CLDC-1.0'); $re=$tra->rest('http://www.baidu.com/', $params ='123', $method = 'get', $my_head ...
cicecice1 评论(0) 有681人浏览 2012-07-28 11:29

Heritrix+ Lucene + WARC 爬虫 增量 采集 与 回放 之整合(heritrix 增量 技术 文档参考)

Heritrix+ Lucene + WARC 爬虫增量采集与回放之整合 heritrix 增量 技术 文档参考如有需要,可以和本人联系。 QQ:382500398。 针对Heritrix源码1.14版本进行解读和研究,本人把Herirtrix和lucene 3进行了整合改造,形成完整的myeclipse工程,本整合后的工程完成了采集后完整的网站回放的实现。在研读的过程中,主要做了如下工作: 1. ...
xyheritrix 评论(0) 有2508人浏览 2012-03-14 15:29

【推荐】快所构建实时抓取集群

本人在浏览关于搜索技术的时候在博客发现一篇比较好的抓取架构分享,转来分享给大家!!挺不错!!值得收藏!! 个人站分享:知民网 http://www.jbzhimin.com   定义: 首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特 ...
_www 评论(0) 有103人浏览 2011-12-23 16:01

wget

wget 是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。 $ wget -r -np -nd http://example.com/packages/ 这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,-np 的作用是不遍历父 ...
erntoo 评论(0) 有763人浏览 2011-11-10 10:18

Wordpress采集插件

1.smartrss-wordpress自动采集插件 随心所欲地把自己喜欢的RSS里面的文章自动发布到自己的wordpress 博客上,使得 wordpress 具有了类似于有些 CMS 的自动采集功能。 使用方法:s1、下载jay_smart_rss,解压后把jay_smart_rss.php、wp-cron.php和wp-cron-update- rss.php上传到/wp-co ...
yonglailizhi 评论(0) 有4916人浏览 2011-07-19 11:26

java web页面数据抓取

java抓取数据后,写入本地文件 public static void main(String[] args){ URL url = null; String path = null; String filePath = null; try { url = new URL("http://publish.it168.com/2005/0915/ ...
fhqibjg 评论(0) 有1983人浏览 2010-07-19 21:27

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics