- 浏览: 636554 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (314)
- 生活 (2)
- c# (37)
- 技术 (3)
- 400电话 (0)
- 400常见问题 (0)
- 400资费 (0)
- html (7)
- css (0)
- 数据库 (7)
- javascript (16)
- php (33)
- asp.net mvc2 (10)
- mysql (9)
- C# 3.0 LinQ (10)
- vs2005或vs2008 (4)
- flash and as3 (7)
- fms (1)
- dedeCMS (11)
- java (33)
- j2me (1)
- swing (1)
- c++ (1)
- jquery easyui (3)
- jquery (5)
- android (29)
- MongoDB (9)
- VtigerCRM (1)
- test (0)
- linux (30)
- nutch (2)
- SqlServer数据库 (2)
- 数据检索 (2)
- java抓取 (11)
- 乐天 (1)
- 淘宝 (1)
- Silverlight4.0 (6)
- sphinx实时索引 (5)
- ecshop (9)
- codeigniter(CI) (3)
- axure6 (1)
- 京东店铺装修教程 (2)
- xpath (1)
- joomla (2)
- bpm (1)
- Bootstrap (2)
- knockout (4)
- ecstore (4)
- css3 (1)
- 微信 (2)
- dede (0)
- soa_edi (1)
- odoo (0)
- web (1)
最新评论
-
骑着蜗牛超F1:
在ie6下报了个stack overflow at line ...
兼容ie6和ie7 的16进制码流在html中显示为图片代码(base64) -
冰之海洋:
好像少了一句代码吧? FloatingFunc.show(th ...
android 一直在最前面的浮动窗口效果 -
yanzhoupuzhang:
连接有问题!
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000) -
whatable:
唉,楼主你都没有搞清楚重量级和轻量级。。。。既然引用了SWT, ...
java swing 内置浏览器打开网页显示flash图表-swt Browser应用 -
yy_owen:
我晕啊,你链接的什么内容额,我要的iis,你链接个视频什么意思 ...
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)
一、下载:
到www.sourceforge.net 网站搜索heritrix, 然后分别下载下来hheritrix-1.14.4-src.zip,heritrix-1.14.4.zip
下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/
二、配置
1. 解压 heritrix-1.14.4.zip ,假设解压到了c 盘根目录下并把解压后的文件夹命名为heritrix(http://www.my400800.cn )
2. 进入c:/heritrix/conf 复制文件jmxremote.password.template 到c:/heritrix 下并把文件重新命名为jmxremote.password ,
然后修改其内容为下:
monitorRole @123456789@ ->monitorRole admin (@ 于@ 之间设置的是密码, 后面是-> 用户角色用户名)
controlRole @123456789@ ->controlRole shi
并设置文件jmxremote.password 的属性为只读
3. 进入c:/heritrix/conf 打开文件heritrix.properties ,修改其中的几项key-value 值
heritrix.cmdline.admin = admin:770629 ( 用户名:密码)
heritrix.cmdline.port = 8080 (heritrix 服务器默认端口号8080, 保证该端口不被占用就不用改了)
4. 打开cmd ,切换目录到c:/heritrix/bin
然后敲入命令:heritrix.cmd --admin=admin:123456789
会出现如下错误:
- WARNING: It's currently not possible to run Heritrix in background
- on Windows. It was just started minimized in a new Window
- and will be shut down as soon as you log off.
- 2011 / 02 / 25 周五 23 : 49 : 27.00 Starting heritrix
- Heritrix failed to start properly. Possible causes:
- - Login and password have not been specified (see --admin switch )
- - another program uses the port for the web UI ( 8080 by default )
- (e.g. another Heritrix instance)
- - JMX password file is missing or permissions not set correctly
- JMX permissions file missing. A template can be found in
- E:\framework\heritrix-1.14 . 4 \conf\jmxremote.password.template.
- Copy it to
- E:\framework\heritrix-1.14 . 4 \jmxremote.password
- and edit the passwords at the end of the file. Then, make sure
- the file is read-restricted to only the user that the Heritrix
-
Java VM will run as. For example:
5. 再设置文件的为只读,并且要设置文件的拥有者只能为当前登录系统的用户,删除文件的其他用户或角色权限。修改方法:
文件->属性->"安全"标签页->高级->"权限"标签页->更改权限按钮
->取消"包括从该对象的父项继承的权限"的勾选-,同时再删除其他多余的用户或角色权限(只留下当前登录系统的用户)
如果删除不了要全部设定他们的权限限定
里面的用户要全部设定权限,不然会报错的要
发表评论
-
Java 线程中的Join、wait、notify,sleep
2016-06-22 17:28 4591.wait和notify这两个方法都是Object中的方法 ... -
Java多线程sleep(),join(),interrupt(),wait(),notify()
2016-06-22 17:25 513浅析 Java Thread.join() ... -
Java和C#运行命令行并获取返回值 运行bat文件
2015-08-04 10:45 1339Java运行命令行的例子 import java.io.B ... -
HttpClient的超时用法小记
2012-05-06 08:23 985HttpClient在使用中有两个超时时间,是一直接触 ... -
JDK1.5中的线程池(java.util.concurrent.ThreadPoolExecutor)使用简介
2012-05-05 21:29 799在多线程大师Doug Lea的 ... -
XPath 语法 org.dom4j.Document
2012-02-07 13:12 1346XPath 使用路径表达式 ... -
Nutch命令大全
2011-12-28 15:12 1432Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方 ... -
Nutch1.2搜索引擎使用详解
2011-12-27 17:12 1693Nutch作为一款刚刚诞生 ... -
ECLIPSE java.lang.OutOfMemoryError: PermGen space 错误
2011-12-21 15:03 1125ECLIPSE 最近一段时间经常报错,看了日志,有如下错误信息 ... -
nutch环境配置在windows系统上(借助Cygwin)
2011-11-16 11:09 1806nutch环境配置在windows系统上必须要安装【Cygwi ... -
Heritrix 和 Nutch 比较与分析(java开源网络爬虫)
2011-11-15 11:01 7474Heritrix项目介绍 Heritrix工程 ... -
java 如何判断Socket已断开
2011-09-14 13:34 1742最近在开发中遇到一个问题,就是如何判断远端服务器是否已经断开连 ... -
java 程序内存溢出问题查找
2011-04-10 18:00 987这段是时间用java swing做了一个小程序,但是运行一点时 ... -
jtable 隐藏表头标题行
2011-04-08 10:59 3281今天需要把JTable的表头也就是标题行给隐藏掉,在晚上找了一 ... -
java FrameView 启动最大化
2011-03-30 08:49 1539FrameViewzView = new ... -
Swing窗口Linux下不支持最大化问题
2011-03-28 10:15 1008由于最近一直在Linux下工作,今天遇到了Swing窗口不能最 ... -
java 抓取网页内容,可设定代理(HttpURLConnection)
2011-03-11 09:41 1466/* * To change this template, ... -
swing下 改变窗口样式为windows风格(swing控件样式不美观解决方案)
2011-03-02 15:52 2645在windows环境下可以用下面两种方法使窗口显示window ... -
swt Browser 如何打开新url链接地址
2011-02-28 17:27 1715上一篇文章【java swing 内置浏览器打开网页显示fla ... -
java swing 内置浏览器打开网页显示flash图表-swt Browser应用
2011-02-25 16:45 3877今天在网上找了好久如何用在java swing打开网页,从而实 ...
相关推荐
首先,Heritrix的下载过程非常简单。你可以访问www.sourceforge.net网站,搜索"heritrix",然后下载两个版本的文件:heritrix-1.14.0-RC1.zip(预编译版本)和heritrix-1.14.0-RC1-src.zip(源码版本)。下载完成后...
Heritrix的安装相对简单,下载Heritrix 1.12.0版本后,解压缩至指定目录,例如文中选择的是E盘根目录下的“heritrix”文件夹。Heritrix的安装并不需要复杂的步骤,主要是确保软件包中的所有文件都被正确放置。 ### ...
值得注意的是,在使用Lucene和Heritrix开发搜索引擎时,我们还需要考虑系统架构、数据处理能力、存储解决方案以及系统的可扩展性与维护性。在设计之初,就要规划如何高效地处理和存储索引数据,以及如何应对搜索引擎...
这个“Heritrix1.14.4源码+项目”压缩包包含的是Heritrix 1.14.4版本的源代码和相关项目文件,对于学习和理解Web爬虫的工作原理,以及进行自定义开发是非常有价值的。 Heritrix的核心功能是通过模拟浏览器行为来...
下载和安装Heritrix 3 可以从SourceForge或其他自动测试仓库获取。启动Heritrix 3 时,使用`bin/heritrix`脚本,并设置操作员密码。网络控制界面通过HTTPS协议在端口8443上提供服务。首次连接时,由于安全原因,...
Heritrix 的安装过程相对简单,主要步骤如下: 1. **下载安装包**:从官方网站下载最新版本的安装包。 2. **解压文件**:将安装包解压到指定目录下。 3. **配置环境变量**:根据系统要求配置必要的环境变量,如 JAVA...
Heritrix支持多种策略和模块,如深度优先和广度优先的爬行策略,以及基于正则表达式或DOM结构的URL过滤器。此外,它还提供了丰富的接口,允许开发者编写自定义的模块,如新的爬行策略、内容处理器或存储适配器。这...
Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个开源的互联网档案爬虫,能够系统地抓取网页并保存为离线资源,以便于后续...
Heritrix的强大之处在于其高度可配置性和扩展性,开发者可以通过自定义策略来控制爬取的行为,如深度优先或广度优先,以及选择性的抓取特定类型的资源。在源代码中,我们可以看到Heritrix如何处理HTTP请求,解析HTML...
Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...
针对所有可配置模块的常见需求进行了说明,比如模块的定义、属性访问方式和如何组装一个简单模块。文档中还专门对URI类进行了介绍,说明了支持的协议(Scheme)、CrawlURI属性列表和记录流。 在编写自定义组件时,...
根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...
此外,还可能涉及如何使用Lucene进行垂直搜索、自定义分析器和过滤器的开发,以及Heritrix的爬虫策略配置等。 6. **案例研究与实战**:书中的"ch13"可能包含了一些实际项目案例,指导读者如何将理论知识应用于实践...
Heritrix 是一款开源的、可扩展的、网络级别的、具有归档质量的网页抓取工具,它由 Internet Archive 开发。Heritrix 的用户手册提供了如何创建、配置和运行抓取任务的详细说明,适用于那些对网页抓取至少有基本了解...
1. **Heritrix配置与设置**:如何启动和配置Heritrix爬虫,包括设置爬行规则、处理管道和爬行范围。 2. **Lucene索引构建**:详细讲解如何使用Lucene API创建索引,包括文档添加、删除和更新操作。 3. **数据分析与...
总的来说,Heritrix1.14.4是一个功能全面且易用的网络爬虫工具,适合新手和专业开发人员进行网页数据的抓取和分析。其提供的网易扩展接口使得对特定网站的抓取更加简便,极大地提升了工作效率。如果你正在寻找一个...
在《搜索引擎Lucene+Heritrix(第二版)2》中,你将学习如何配置和运行Heritrix,以及如何处理爬取过程中遇到的各种问题,比如网页编码、重定向和动态内容。 文件列表中的"ch7-9"可能指的是书籍的第七到第九章,这...