`
gxq926
  • 浏览: 8310 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch+solr,solr文件配置

 
阅读更多
nutch爬取网页,通过solr建立索引,solr schema.xml的配置如下:
<fields>  <field name="url" type="string" indexed="true" stored="true"/>  <field name="content" type="text" indexed="true" stored="true"/>  <field name="segment" type="string" indexed="false" stored="true"/>  <field name="digest" type="string" indexed="false" stored="true"/>  <field name="host" type="string" indexed="true" stored="false"/>  <field name="site" type="string" indexed="true" stored="false"/>  <field name="anchor" type="string" indexed="true" stored="false" multiValued="true"/>  <field name="title" type="text" indexed="true" stored="true"/>  <field name="tstamp" type="slong" indexed="false" stored="true"/>  <field name="text" type="text" indexed="true" stored="false" multiValued="true"/> </fields> <uniqueKey>url</uniqueKey> <defaultSearchField>text</defaultSearchField> <solrQueryParser defaultOperator="AND"/> <copyField source="anchor" dest="text"/> <copyField source="title" dest="text"/> <copyField source="content" dest="text"/>
分词采用IKanalyer
分享到:
评论

相关推荐

    Nutch+solr + hadoop相关框架搭建教程

    总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56个,VM文件32个,CRC文件26个,测试文件13个,JAR打包文件12个,以及Properties配置文件9个。...

    eclipse配置nutch,eclipse配置nutch

    为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...

    利用开源工具搭建小型搜索引擎

    基于开源搜索引擎工具(如Heritrix +Lucence,或Nutch+Solr),搭建独立完整的搜索引擎测试平台。 2)垂直搜索行业信息:自主选择某一感兴趣行业,抓取相关行业内容。以抓取结果作为数据库,建立垂直搜索引擎,实现...

    基于hbase+solr的搜索引擎毕业论文

    Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后前端展示查询结果,用户点击结果列表查看目标资料。

    基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引

    本文将深入探讨如何使用Apache Nutch与Solr等组件,结合Htmlunit和Selenium WebDriver,来实现对AJAX加载类型页面的全面内容抓取、解析、索引,以及特定数据项的提取。 首先,Apache Nutch是一个开源的Web爬虫框架...

    hadoop nutch solr 环境搭建手册

    自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方

    webcrawler:带有 apache nutch 和 solr 的网络爬虫

    Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...

    搜索引擎nutch配置

    打开`conf/nutch-site.xml`文件,这是Nutch的主要配置文件。以下是一些关键配置项: - `generalcrawl.interval`: 定义抓取间隔,单位为秒。 - `db.default.urlnormalizers`: 指定URL规范化规则。 - `db.default....

    nutch_1.4配置

    综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...

    大数据技术文档.docx

    本篇文档详细介绍了一种基于Hadoop+Nutch+Solr的大数据搜索系统的设计与实现方法,旨在解决传统搜索引擎中存在的问题,如结果相关性不高、搜索速度慢等。通过对关键技术的深入研究和创新性的应用,该系统能够在...

    Apache Nutch 1.7 学习总结

    - 初始化Nutch的配置文件,根据需求修改`conf/nutch-site.xml`。 - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/...

    大数据技术文档27.docx

    为了解决上述问题,本方案采用了Hadoop、Nutch和Solr这三种技术的结合,具体优势如下: 1. **Hadoop平台的优势** - **高效的数据处理能力**:Hadoop集群能够大幅提高数据处理速度,尤其适用于大规模数据处理场景。...

    OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎.zip

    OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎 Silex框架 ;thiagoalessio ;nutch1.10+solr4.10.4 ;``` shell

    nutch_1.4在windows下安装配置.pdf

    - 在 `conf/nutch-site.xml` 文件中添加如下配置: ```xml &lt;name&gt;http.agent.name&lt;/name&gt; &lt;value&gt;MyNutchSpider ``` 2. **准备爬行种子文件** - 在 `local` 目录下创建 `urls` 文件夹,并在其中创建 `seed...

    Apache Nutch 1.7 在windows和Linux下的安装

    * 最后,需要配置 Nutch 1.7 的配置文件,例如 nutch-site.xml、ivy-settings.xml 等。 4. 测试 Nutch 1.7 测试 Nutch 1.7 的步骤如下: * 首先,使用 Nutch 1.7 的 crawl 命令来爬取网络上的网页。 * 之后,使用...

    nutch2.2.1安装步骤.docx

    这通常涉及创建一个 Solr 配置集合,与 Nutch 的 `conf/solr-server.xml` 文件中的配置匹配。 总的来说,Nutch 2.2.1 的安装和配置涉及到多个组件的集成,包括 Ant、JDK、Tomcat、MySQL 和 Solr。每个组件都需要...

    Nutch搜索引擎·Solr简介及安装(第2期)

    1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch

    Solr技术分析及运用

    - 修改配置文件 `apache-tomcat-7.0.67\webapps\solr\WEB-INF\web.xml`,设置 Solr 的工作目录为之前创建的 `solr_home`。 2. **新建数据配置 core** - 在 `solr_home` 目录下,拷贝 `collection1` 文件夹,并重...

    windows下的nutch配置总结

    - 提供的`.chm`和`.doc`文件很可能是Nutch配置的详细指南或教程,这些文档可以帮助理解配置过程中的细节,解决遇到的问题。 10. **扩展和优化**: - Nutch允许自定义插件来扩展其功能,例如解析特定格式的文件,...

Global site tag (gtag.js) - Google Analytics