`
youkimra
  • 浏览: 34560 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch 运行中配置文件的修改

阅读更多
集中了两天时间对nutch的抓取效率进行了研究,根据自己的需求只关心网站的html页面。其余的都filter,配置文件很多,需要记录下以便后面方便:

1 nutch-default.xml
   a. http.content.limit -1 表示抓取整个html页面内容 。
   b. fetcher.threads.per.host 5  fetcher.threads.fetch 100 , 如果fetcher.threads.per.host为1的话后面线程数是不会生效的。
   c. plugin.includes 加上urlfilter-(regex|prefix|suffix) 对url进行过滤。
2 regex-urlfilter.xml
  # skip file: ftp: and mailto: urls
  -^(file|ftp|mailto):

  # skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
-[\(\)\{\}\<\>\\]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-[A-Za-z0-9]{20,}

# accept anything else
+.
3 suffix-urlfilter.xml
  次数添加你想要过滤的链接后缀 如: .zip .rar
4 prefix-urlfilter.txt
  http://
  https://
分享到:
评论

相关推荐

    eclipse配置nutch,eclipse配置nutch

    为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...

    Nutch程序运行环境配置

    - Nutch运行还需要配置一系列的配置文件,如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等,这些文件定义了爬虫的行为,如抓取策略、存储位置、抓取间隔等。 5. **Hadoop集成**: - ...

    nutch_1.4配置

    综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...

    Nutch 安装与配置文档

    在实际使用中,根据具体需求可能还需要对Nutch的其他配置文件进行调整,如`conf/nutch-default.xml`和`conf/nutch-site.xml`,以便优化抓取策略和索引设置。同时,了解Nutch的抓取流程和原理,对于进行更高级的网络...

    Windows下配置nutch

    - 修改配置文件,如 `nutch-site.xml` 和 `crawl-urlfilter.txt`,以适应你的需求。 - **借助 Cygwin 使用 Nutch**: - 安装 Cygwin,这是一个模拟 Linux 环境的工具,使得可以在 Windows 上运行 Linux 命令行...

    nutch10配置(解决代理问题)

    2. **General Configuration**:通用配置文件`conf/nutch-default.xml`,这里包含了关于代理服务器的配置信息。 - `&lt;property&gt;`标签中的配置项用于指定代理服务器的主机名、端口、用户名和密码等信息。 - `&lt;name&gt;...

    nutch安装开发环境的配置

    这在 `nutch-site.xml` 文件中完成。添加以下配置: ``` &lt;name&gt;http.agent.name&lt;/name&gt; &lt;value&gt;Local &lt;description&gt;...

    Nutch安装配置

    需要在Nutch配置文件中指定Hadoop的路径,确保Hadoop已经正确安装并启动。Nutch与Hadoop的集成涉及到修改`conf/nutch-site.xml`文件。 6. **配置Nutch**:修改`conf/nutch-site.xml`文件以设置抓取策略、存储位置、...

    nutch2.2.1安装步骤.docx

    2. 配置 Nutch 的抓取配置文件,如 `conf/nutch-site.xml` 和 `conf/gora.properties`。 3. 添加种子 URL:`bin/nutch inject urls` 4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库...

    nutch1.2 java project

    Nutch 的配置过程确实可能涉及多个步骤,包括环境变量设置、配置文件修改、依赖库安装等,对新手来说可能会有些复杂。因此,这个分享对于想要快速入门 Nutch 的开发者来说非常有价值。 以下是 Nutch 1.2 项目中的...

    Eclipse中编译Nutch-0.9

    - **修改配置文件**:编辑关键的配置文件,如hadoop-site.xml、nutch-default.xml和nutch-site.xml,以适应本地环境和个性化需求。 - 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    (1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...

    Nutch 配置

    5. **复制Hadoop配置文件**:将Hadoop的配置文件如`core-site.xml`, `hadoop-env.sh`, `hdfs-site.xml`, `mapred-site.xml`, `masters`, `slaves`从`HADOOP_HOME/conf`复制到`NUTCH_HOME/conf`。同时,将`HADOOP_...

    windows下nutch的安装.pdf

    解压后,需要修改nutch-site.xml文件以配置Nutch运行时的相关参数,例如配置抓取的用户代理名称: ```xml &lt;name&gt;http.agent.name&lt;/name&gt; &lt;value&gt;MySearch ``` 还可以配置抓取的起始URLs: ```xml &lt;name&gt;urlfile *...

    nutch开发资料 搜索引擎

    开发者可以根据需求修改这些配置文件,例如设置爬虫策略、过滤规则、分词器选择等。 8. **插件系统**:Nutch具有强大的插件架构,允许开发者轻松添加新的功能,如新的解析器、新的索引器或新的URL过滤规则。插件...

    nutch工具包

    8. **conf** 文件夹:包含了Nutch的各种配置文件,如`regex-urlfilter.txt`用于过滤URL,`crawlDatumStorage.conf`定义数据存储方式,`nutch-site.xml`是Nutch的核心配置文件。 9. **docs** 文件夹:可能包含Nutch...

    nutch 初学文档教材

    2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...

Global site tag (gtag.js) - Google Analytics