`
lxwt909
  • 浏览: 572705 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Eclipse下运行启动Heritrix1.14.4

阅读更多

前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它。

首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后你会看到如图的目录结构:

 
src下毫无疑问是源码文件,libHeritrix依赖的jar包。Testdata文件夹里存放的是测试文件,可以忽略。

然后我们可以打开Eclipse,新建一个Java Project取名为heritrix1(名字随便取),如图:

 
heritrix-1.14.4-src\src\java下的org,com,st3个目录copy到刚新建的Projectsrc下,

 
源码复制进去后有很多代码报错,是因为我们还没有添加jar依赖,首先在project里新建一个folder取名lib用于存放依赖的第三方jar,如图:

 

 
heritrix-1.14.4\lib下的所有jar包全部copy到刚刚新建的lib下,如图:

 
选中全部jar,然后add to build path,如图:

 
然后新建一个source folder取名为conf(名字随便取,不一定要叫conf),如图:

 
heritrix-1.14.4\src\conf下的所有文件及文件夹全部copy到新建的conf源码文件夹下,如图:

 

 
然后继续新建一个source folder 取名为resources,如图:

 
然后resources下新建一个org. archive.util包,如图:

 

 
然后将heritrix-1.14.4\src\resources\org\archive\util下的tlds-alpha-by-domain.txt文件copy到刚刚新建的org.acchive.util包下,如图:

 
然后将heritrix-1.14.4\src下的webapps整个目录复制到当前project的根目录下,如图:

 
然后在eclipse中打开heritrix.properties配置文件,稍作修改,如图:

 
这一切工作完成后,在Eclipse界面里按下ctrl + shift + T,然后查找Heritrix类,如图:

 
然后你就可以鼠标右键Run as运行它来启动Heritrix啦,运行后如果你在控制台看到如图的提示信息,即表明Heritrix启动成功啦!

 
然后你访问http://localhost:6789就可以访问HeritrixWeb后台啦!在Eclipse下运行启动Heritrix就介绍到这儿了。

ITeye不允许我贴我的QQ和群号,要联系我看之前的博客吧,不然ITeye又要封我博客啦,坑爹的ITeye!

 

 

 

 

 

 

 

 

 

 

 

 

  • 大小: 42.4 KB
  • 大小: 12.3 KB
  • 大小: 13.1 KB
  • 大小: 38.5 KB
  • 大小: 38.3 KB
  • 大小: 16.9 KB
  • 大小: 58.6 KB
  • 大小: 42.4 KB
  • 大小: 74.2 KB
  • 大小: 51.8 KB
  • 大小: 15.7 KB
  • 大小: 18 KB
  • 大小: 30.4 KB
  • 大小: 18.4 KB
  • 大小: 19 KB
  • 大小: 20.9 KB
  • 大小: 64 KB
  • 大小: 46.4 KB
  • 大小: 38.7 KB
0
1
分享到:
评论

相关推荐

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    Heritrix-1.14.4源代码

    为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...

    利用 Heritrix 构建特定站点爬虫

    Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,这些类库对于Heritrix的正常运行至关重要。 - **步骤**: - 将`heritrix-1.14.4-src`下的`lib`文件夹完整复制到MyHeritrix项目的根目录。 - 在...

    Heritrix在Eclipse中的源文件

    2. 输入项目名称,例如"Heritrix1.14.4",然后点击"Next"。 3. 在"JRE"选项中,确保选择了正确的JRE版本,通常是与系统安装的JDK对应的版本,点击"Finish"。 步骤二:导入Heritrix源代码 1. 解压下载的Heritrix源...

    Heritrix的安装与配置

    然后,将源代码文件夹`src\Java\`下的`org`和`st`两个文件夹拖放到Eclipse的`Heritrix`工程的`src`目录下。如果出现编译错误,可能是因为你的Eclipse默认的编译版本过低,需要在`Window` -> `Preferences` -> `Java`...

    Heritrix构建特定站点爬虫

    - 在完成上述配置后,可以通过Eclipse的运行功能启动Heritrix。 - 在控制台窗口可以看到Heritrix的启动信息和运行状态。 #### 四、扩展Heritrix实现特定站点爬虫 为了实现针对特定网站的抓取任务,需要对Heritrix...

    heritrix爬虫安装部署

    - 解压`heritrix-1.14.4-src.zip`和`heritrix-1.14.4.zip`。 - 将源代码文件夹整合进工程中。 - 添加必要的库文件(jar包)至项目的`lib`目录。 - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline....

    Heritrix1.14.3配置流程[参考].pdf

    通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...

Global site tag (gtag.js) - Google Analytics