nutch 运行中配置文件的修改 - Barry&Candy - ITeye博客

`

youkimra

浏览: 35243 次
性别:
来自: 北京

最近访客更多访客>>

kangnam

fh0001234

noodv1990

ChenHotOne

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ChenHotOne：你好，我遇到你说的这个4. java.lang.Runtime ...
nutch运行x point org.apache.nutch.net.URLNormalizer not found.处理
xuyuanshuaaa： lz你好，我想问下 “对于Gzip压缩的文件，即使我们设置了s ...
hadoop 压缩文件处理
chenyuxxgl：请问你的nutch是什么版本
nutch 在hadoop运行时引用包不同所引发的问题

nutch 运行中配置文件的修改

博客分类：

nutch

XML CSS HTML C C++

阅读更多

集中了两天时间对nutch的抓取效率进行了研究，根据自己的需求只关心网站的html页面。其余的都filter，配置文件很多，需要记录下以便后面方便：

1 nutch-default.xml
   a. http.content.limit -1 表示抓取整个html页面内容。
   b. fetcher.threads.per.host 5 fetcher.threads.fetch 100 ，如果fetcher.threads.per.host为1的话后面线程数是不会生效的。
   c. plugin.includes 加上urlfilter-(regex|prefix|suffix) 对url进行过滤。
2 regex-urlfilter.xml
# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
-[\(\)\{\}\<\>\\]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-[A-Za-z0-9]{20,}

# accept anything else
+.
3 suffix-urlfilter.xml
次数添加你想要过滤的链接后缀如： .zip .rar
4 prefix-urlfilter.txt
http://
https://

分享到：

转－》hadoop 性能因素 | nutch运行x point org.apache.nutch.net.U ...

2011-05-19 17:02
浏览 1100
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

eclipse配置nutch，eclipse配置nutch: 为了使Nutch在Eclipse中正常运行，你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言，将`plugin.folders`参数改为`"./src/plugin"`，以确保Nutch能够识别到项目的插件目录。 #### 步骤5：设置URL文件 ...

Nutch程序运行环境配置: - Nutch运行还需要配置一系列的配置文件，如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等，这些文件定义了爬虫的行为，如抓取策略、存储位置、抓取间隔等。 5. **Hadoop集成**： - ...

nutch安装配置文档: - 修改 `nutch-site.xml` 文件，设置 `<value>` 标签的内容为 Nutch 的数据存储目录。 7. **解决中文问题** - 编辑 Tomcat 的 `server.xml` 文件，修改 `<Connector>` 标签中的 `URIEncoding` 属性为 `"UTF-8"`...

nutch_1.4配置: 综上所述，Nutch 1.4在Windows下的安装配置涉及多个环节，包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等，每一步都需仔细操作以确保系统正常运行。通过以上步骤，用户不仅能够实现对目标网站的自动化...

Nutch 安装与配置文档: 在实际使用中，根据具体需求可能还需要对Nutch的其他配置文件进行调整，如`conf/nutch-default.xml`和`conf/nutch-site.xml`，以便优化抓取策略和索引设置。同时，了解Nutch的抓取流程和原理，对于进行更高级的网络...

Linux下Nutch单机配置: 这时就需要进一步调整配置文件，比如在 `server.xml` 中增加编码配置。总之，在Linux环境下配置Nutch涉及到多个步骤，包括环境搭建、JDK和Apache Tomcat的安装与配置，以及Nutch本身的配置和应用。通过以上详细的...

Windows下配置nutch: - 修改配置文件，如 `nutch-site.xml` 和 `crawl-urlfilter.txt`，以适应你的需求。 - **借助 Cygwin 使用 Nutch**： - 安装 Cygwin，这是一个模拟 Linux 环境的工具，使得可以在 Windows 上运行 Linux 命令行...

nutch10配置（解决代理问题）: 2. **General Configuration**：通用配置文件`conf/nutch-default.xml`，这里包含了关于代理服务器的配置信息。 - `<property>`标签中的配置项用于指定代理服务器的主机名、端口、用户名和密码等信息。 - `<name>...

图解搜索引擎nutch配置: 由于网上关于Nutch的教程大多较为简略，特别是针对初学者的配置步骤不够详尽，因此本教程旨在帮助读者顺利配置并运行Nutch。 #### 二、准备工作 ##### 1. 下载与安装Nutch - **下载Nutch**： - 访问Nutch官网或...

nutch安装开发环境的配置: 这在 `nutch-site.xml` 文件中完成。添加以下配置： ``` <name>http.agent.name</name> <value>Local <description>...

Nutch安装配置: 需要在Nutch配置文件中指定Hadoop的路径，确保Hadoop已经正确安装并启动。Nutch与Hadoop的集成涉及到修改`conf/nutch-site.xml`文件。 6. **配置Nutch**：修改`conf/nutch-site.xml`文件以设置抓取策略、存储位置、...

nutch2.2.1安装步骤.docx: 2. 配置 Nutch 的抓取配置文件，如 `conf/nutch-site.xml` 和 `conf/gora.properties`。 3. 添加种子 URL：`bin/nutch inject urls` 4. 执行抓取周期：`bin/nutch crawl -i crawl` 注意，你需要根据实际的数据库...

nutch1.2 java project: Nutch 的配置过程确实可能涉及多个步骤，包括环境变量设置、配置文件修改、依赖库安装等，对新手来说可能会有些复杂。因此，这个分享对于想要快速入门 Nutch 的开发者来说非常有价值。以下是 Nutch 1.2 项目中的...

Eclipse中编译Nutch-0.9: - **修改配置文件**：编辑关键的配置文件，如hadoop-site.xml、nutch-default.xml和nutch-site.xml，以适应本地环境和个性化需求。 - 在`nutch-default.xml`中，更新`http.agent.name`属性值为`nutch-1.0`，并指定...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: （1）在conf/nutch-default.xml中，将`plugin.folders`的值更改为`./src/plugin`。（2）创建一个名为urls的目录，里面放一个txt文件，包含你要抓取的初始网址。在conf/nutch-site.xml中，添加`http.agent.name`...

Nutch 配置: 5. **复制Hadoop配置文件**：将Hadoop的配置文件如`core-site.xml`, `hadoop-env.sh`, `hdfs-site.xml`, `mapred-site.xml`, `masters`, `slaves`从`HADOOP_HOME/conf`复制到`NUTCH_HOME/conf`。同时，将`HADOOP_...

windows下nutch的安装.pdf: 解压后，需要修改nutch-site.xml文件以配置Nutch运行时的相关参数，例如配置抓取的用户代理名称： ```xml <name>http.agent.name</name> <value>MySearch ``` 还可以配置抓取的起始URLs： ```xml <name>urlfile *...

nutch开发资料搜索引擎: 开发者可以根据需求修改这些配置文件，例如设置爬虫策略、过滤规则、分词器选择等。 8. **插件系统**：Nutch具有强大的插件架构，允许开发者轻松添加新的功能，如新的解析器、新的索引器或新的URL过滤规则。插件...

nutch工具包: 8. **conf** 文件夹：包含了Nutch的各种配置文件，如`regex-urlfilter.txt`用于过滤URL，`crawlDatumStorage.conf`定义数据存储方式，`nutch-site.xml`是Nutch的核心配置文件。 9. **docs** 文件夹：可能包含Nutch...

nutch 初学文档教材: 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...

Global site tag (gtag.js) - Google Analytics