集中了两天时间对nutch的抓取效率进行了研究,根据自己的需求只关心网站的html页面。其余的都filter,配置文件很多,需要记录下以便后面方便:
1 nutch-default.xml
a. http.content.limit -1 表示抓取整个html页面内容 。
b. fetcher.threads.per.host 5 fetcher.threads.fetch 100 , 如果fetcher.threads.per.host为1的话后面线程数是不会生效的。
c. plugin.includes 加上urlfilter-(regex|prefix|suffix) 对url进行过滤。
2 regex-urlfilter.xml
# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
-[\(\)\{\}\<\>\\]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-[A-Za-z0-9]{20,}
# accept anything else
+.
3 suffix-urlfilter.xml
次数添加你想要过滤的链接后缀 如: .zip .rar
4 prefix-urlfilter.txt
http://
https://
分享到:
相关推荐
为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...
- Nutch运行还需要配置一系列的配置文件,如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等,这些文件定义了爬虫的行为,如抓取策略、存储位置、抓取间隔等。 5. **Hadoop集成**: - ...
综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...
在实际使用中,根据具体需求可能还需要对Nutch的其他配置文件进行调整,如`conf/nutch-default.xml`和`conf/nutch-site.xml`,以便优化抓取策略和索引设置。同时,了解Nutch的抓取流程和原理,对于进行更高级的网络...
- 修改配置文件,如 `nutch-site.xml` 和 `crawl-urlfilter.txt`,以适应你的需求。 - **借助 Cygwin 使用 Nutch**: - 安装 Cygwin,这是一个模拟 Linux 环境的工具,使得可以在 Windows 上运行 Linux 命令行...
2. **General Configuration**:通用配置文件`conf/nutch-default.xml`,这里包含了关于代理服务器的配置信息。 - `<property>`标签中的配置项用于指定代理服务器的主机名、端口、用户名和密码等信息。 - `<name>...
这在 `nutch-site.xml` 文件中完成。添加以下配置: ``` <name>http.agent.name</name> <value>Local <description>...
需要在Nutch配置文件中指定Hadoop的路径,确保Hadoop已经正确安装并启动。Nutch与Hadoop的集成涉及到修改`conf/nutch-site.xml`文件。 6. **配置Nutch**:修改`conf/nutch-site.xml`文件以设置抓取策略、存储位置、...
2. 配置 Nutch 的抓取配置文件,如 `conf/nutch-site.xml` 和 `conf/gora.properties`。 3. 添加种子 URL:`bin/nutch inject urls` 4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库...
Nutch 的配置过程确实可能涉及多个步骤,包括环境变量设置、配置文件修改、依赖库安装等,对新手来说可能会有些复杂。因此,这个分享对于想要快速入门 Nutch 的开发者来说非常有价值。 以下是 Nutch 1.2 项目中的...
- **修改配置文件**:编辑关键的配置文件,如hadoop-site.xml、nutch-default.xml和nutch-site.xml,以适应本地环境和个性化需求。 - 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定...
(1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...
5. **复制Hadoop配置文件**:将Hadoop的配置文件如`core-site.xml`, `hadoop-env.sh`, `hdfs-site.xml`, `mapred-site.xml`, `masters`, `slaves`从`HADOOP_HOME/conf`复制到`NUTCH_HOME/conf`。同时,将`HADOOP_...
解压后,需要修改nutch-site.xml文件以配置Nutch运行时的相关参数,例如配置抓取的用户代理名称: ```xml <name>http.agent.name</name> <value>MySearch ``` 还可以配置抓取的起始URLs: ```xml <name>urlfile *...
开发者可以根据需求修改这些配置文件,例如设置爬虫策略、过滤规则、分词器选择等。 8. **插件系统**:Nutch具有强大的插件架构,允许开发者轻松添加新的功能,如新的解析器、新的索引器或新的URL过滤规则。插件...
8. **conf** 文件夹:包含了Nutch的各种配置文件,如`regex-urlfilter.txt`用于过滤URL,`crawlDatumStorage.conf`定义数据存储方式,`nutch-site.xml`是Nutch的核心配置文件。 9. **docs** 文件夹:可能包含Nutch...
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...