1.下载
到官网http://sourceforge.net/projects/archive-crawler/下载最新版,heritrix每个版本都提供4个下载文件(tar.gz, src.tar.gz,zip, src,zip)。我下载了:
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
两个文件。
2.安装
第一种是直接在命令行中配置,解压heritrix-1.14.4.zip到C盘根目录,并更名为heritrix,复制C:\heritrix\conf目录下的jmxremote.password.template文件到目录下,并更名为jmxremote.password,并像下面一样修改其内容(最后两行):
monitorRole @123456789@ ->monitorRole admin (@于@之间设置的是密码)
controlRole @123456789@ ->controlRole shi (后面是:->用户角色 用户名)
然后进入c:\heritrix\conf打开文件heritrix.properties,修改其中的几项key-value值
heritrix.cmdline.admin = admin:770629 (用户名:密码)
heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就行了)
最后.打开cmd,切换目录到c:\heritrix\bin,敲入命令:heritrix --admin=admin:123456789
启动时,可能出现warning:
WARNING: It's currently not possible to run Heritrix in background
on Windows. It was just started minimized in a new Window
and will be shut down as soon as you log off.
不用管,我也不知道什么意思。
第2种是在eclipse(或myeclipse)中导入源码,运行。我在myeclipse中配置,首先,新建一个web project,解压之前下载的src.zip文件,从src中复制java文件夹下的org和st目录到工程的src目录下,复制src中conf文件夹到工程根目录下,复制src中lib目录下的所有jar文件到工程的WEB-INF目录下,从第一种方法中的heritrix目录中的webapps目录下复制admin.war和selftest.war到工程的WebRoot目录下,然后,修改conf文件夹下的heritrix.properties文件,如第一种方法所述即可。导入源码的过程中可能报一个错,找到错误,删除override注解即可。由于我使用的是myeclipse,所以还需要修改Heritrix.java中的getWarsdir()方法,修改其中的webapps为WebRoot即可。还可能报错,找不到tlds-alpha-by-domain.txt文件,从src中的resource目录下找到该文件,拷贝到相应位置即可。最后,运行Heritrix.java文件,即可启动heritrix。
3.使用
启动heritrix后,从浏览器http://127.0.0.1:8080/进入web UI界面,输入用户名密码。
第1个界面:
点击jobs进入第2个界面:
点击with defaults进入第3个界面,在seeds处输入要爬取的网站根域名:
点击modules进入第4个界面,如图倒数第3项,选择org.archive.crawler.writer.MirrorWriterProcessor:
点击setting进入第5个界面,如图,其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。
最后,点击sunmit job,在console界面就可以start程序了,启动程序后,heritrix会将爬取到的网页放在jobs目录下。
- 大小: 53.8 KB
- 大小: 42.8 KB
- 大小: 54.9 KB
- 大小: 73.3 KB
- 大小: 18.2 KB
分享到:
相关推荐
昆仑通态控温程序,MCGS通讯10块仪表,不需要用plc,直接触摸屏通讯各种仪表
基于三菱fxPLC和组态王燃油锅炉控制系统 带解释的梯形图程序,接线图原理图图纸,io分配,组态画面
基于SpringBoot+Vue的助农电商平台(编号:4114842).zip
【岗位说明】销售部销售岗位说明书
幼儿园儿童成长手册记录卡模板
本实训将帮助同学们巩固对计算机中数据表示方法的理解,要求能设计汉字国标码与区位码之间的转换电路,能批量获取汉字机内码并用点阵形式进行显示。通过设计 16 位数据的海明编解码电路,16 位数据的 CRC 并行编解码电路,帮助同学们理解校验码传输过程。通过校验码流水传输实验帮助大家提前建立流水线的基本概念。 第1关汉字国标码转区位码实验 第2关汉字机内码获取实验 第3关偶校验编码设计 第4关偶校验解码电路设计 第5关16位海明编码电路设计 第6关16位海明解码电路设计 第7关海明编码流水传输实验 第8关16位CRC并行编解码电路设计 第9关CRC编码流水传输实验。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。
【岗位说明】销售部各职务详细岗位说明书描述
机械设计铜柱胶壳铁片组装机sw16可编辑非常好的设计图纸100%好用.zip
C# API大全,讲述C#如何调用API。
postgis-2.4.0.tar.gz,postgis安装包。 PostGIS 在对象关系型数据库 PostgreSQL 上增加了存储管理空间数据的能力,相当于 Oracle 的 spatial 部分。PostGIS 最大的特点是符合并且实现了 OpenGIS 的一些规范,是最著名的开源 GIS 数据库。
从小说中提取对话数据集摘录对话本仓库只为huanhuan-chat泛化版的一部分内容(文本对话抽取),欢迎大家给huanhuan-chat仓库star!本仓库的最大贡献就是为泛化的Character AI提供了从小说中建立数据集的功能。huanhuan-chat: https://github.com/KMnO4-zx/huanhuan-chat.git展示repohttps://github.com/KMnO4-zx/extract-dialogue.git本项目利用chatgpt从小说中提取对话集,提取的样本中包括role,dialogue,比如以下的形式{ "role": "艾伦", "dialogue": "不,不要提,这真是太倒霉了!我从楼梯上摔了下去,出现了较为严重的骨裂,只能打石膏做固定。"}{ "role": "克莱恩", "dialogue": "真是不够走运啊。"}快速入门克隆仓库并切换目录git clone https://github.com/KMnO4-zx/extract-dialogue
【Python】基于Python的用于爬取gitlab上的数据的python项目_pgj
项目已获导师指导并通过的高分毕业设计项目,可作为课程设计和期末大作业,下载即用无需修改,项目完整确保可以运行。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 技术组成 语言:java 开发环境:idea 数据库:MySql5.7以上 部署环境:maven 数据库工具:navicat
《数模国赛模板》是一个压缩包文件,通常包含了参与全国数学建模竞赛(以下简称“数模国赛”)所需的各类资源和模板。这个压缩包可能是为了帮助参赛者准备比赛而设计的,里面可能涵盖了论文写作、模型构建、数据处理等方面的内容。下面,我们将详细探讨这些潜在的知识点。 1. **论文结构与格式**: 数模国赛的论文一般包括摘要、引言、模型建立、模型求解、模型检验、模型应用、结论和参考文献等部分。模板可能提供每个部分的标准格式和写作指导,帮助参赛者规范论文结构。 2. **数学建模基础**: 建模是数模比赛的核心,涉及线性代数、微积分、概率统计、优化理论等数学工具。模板可能包含各种常见问题的建模思路,以及如何运用这些数学知识解决实际问题。 3. **数据分析方法**: 数据处理是建模过程中必不可少的一环,可能涉及到数据清洗、数据可视化、回归分析、时间序列分析、聚类分析等。模板会提供数据分析的基本步骤和常用软件(如Excel、SPSS、R或Python)的使用教程。 4. **编程技能**: 在数模比赛中,。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。
【Android】一个Android端的蓝牙遥控APP,提供Arduino库,方便用于机器人、小车等调试用途_pgj
机械设计快走丝电火花线切割机床(毕设ug8+cad+说明书)非常好的设计图纸100%好用.zip
路线图1.简介2.美国-凯斯西储大学轴承数据中心轴承数据集3.美国-机械故障预防技术学会MFPT4.德国-帕德伯恩大学Paderborn轴承数据集5.法国-FEMTO-ST轴承数据集6.美国-辛辛那提大学IMS轴承劳工数据集7.美国-康涅狄格大学康涅狄格大学齿轮数据集8.中国-西安交通大学轴承加速租赁数据集XJTU-SY Bearing Datasets9.中国-东南大学齿轮箱数据集10.声学与振动数据库(振动与声学数据库)11.机械故障设备诊断数据集及技术资料大全12.美国-宇航局预测数据存储库-CoE Datasets13.中国-第三届工业大数据创新竞赛旋转机械数据集14.加拿大-渥太华大学轴承数据集15.意大利-都灵理工大学轴承数据DIRG BearingData16.巴西-里约热内卢联邦大学MAFAULDA轴承数据集17.中国-武汉大学-转子数据18.中国电机振动数据(七月在线竞赛)19.中国-轴承数据集(DC竞赛)20.中国-上海交通大学轴承数据集旋转机械故障数据集打开旋转机械故障数据集1.简介华丽,现在做机械故障研究最基础
对应的模型的超参数: d_model = 512 d_ff = 2048 n_layers = 6 n_heads = 8 dropout_p=0.1 src_vocab_size = 4456 trg_vocab_size = 8013
机械设计手控涂布机sw20可编辑非常好的设计图纸100%好用.zip
Groza - 开源物联网平台 目录特性原理安装使用帮助授权特性