`
myhongkongzhen
  • 浏览: 97003 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论

nutch搜索引擎windows版本,包含中文分词技术

    博客分类:
  • J2EE
阅读更多

2009年5月5日      星期二    天气晴

 

        第一次写博客,希望自己的这点技术可以帮到新人,也可以让高手提点一下吧。

 

        公司项目要做一个搜索引擎的,以前没有接触过,既然公司有了这样的需求,不会也要迎着头皮上了,2月份接手,中间停了半个月,三月份继续,满打满算的有两个月了吧,从不懂搜索引擎到现在算是有些小成就了吧。

 

        公司交任务时让我用nutch做,其实我也不知道用什么,不过既然说了nutch那就看看吧,网上搜资料,===现在越来越发现,自己离不开网络了,离不开google了,只要有不懂的,不会的,不知道的,google一下,什么资料都有了。===不过网上nutch的资料也不是很多,尤其是做国内的项目,中文分词也是一个比较麻烦的事情,反正是网上搜资料,找分词插件,有IKAnalyzer.jar,庖丁,。。。找了几个,最后还是决定用IKAnlyzer.jar了,在这里要感谢原作者把源代码共享了。

 

 

        经过不断的实验,测试,最终修改IKAnlyzer源代码,使其可以自定义关键字字典了,也就是可以根据自己所属的行业,将行业关键字作为字典来检索了,由于我作的公安项目的,所以mykeywords里装的都是公安有关的关键字。

 

       修改了nutch的源代码,使其可以在一个定时线程中运行,我定的是每天晚上1点钟抓取网页,也许这样太频繁了,不过,我也不知道要定义多长时间更新索引,就索性定位每天一次了,反正一个bat文件就和tomcat一样开了,就放到那里让他自己运行着就行了。

 

 

       在网上查nutch资料时发现好多教程,博客,都是千篇一律,就连定义的属性都一样,可没一个都写着原创,,真不可思议,不过我厌恶的是我要查资料,在google里总是出现这样url不同,但内容相同的东东,让我的查询资料有了不少的麻烦,而且查到的也不能运行,总是有些小BUG,不知道发帖的人有没有自己测试,还是直接抄别人的就发到自己的博客上了,,晕死了,,,

 

       这次修改nutch源代码,实现了可以在windows机下直接运行,也不用写那么多脚本了,麻烦,还总是出错,就一个bat就行了。

 

nutchcrawlForWindows

 

 

nutchcrawlForWindows     

 

 

 nutchcrawlForWindows

 

 

 

nutchcrawlForWindows

 

 

==================我是分割线=====================

  

 把项目成品发上来,,直接联系我所要也可以,,,本文章在我的csdn博客中也又发表,均为原创,由于资源大小限制,请到我的csdn博客下载资源:http://blog.csdn.net/myhongkongzhen/archive/2009/05/05/4150750.aspx

搜索资源名:

nutch搜索引擎windows版本,运行bat文件即可 

 

http://download.csdn.net/source/1351580修改版part1

http://download.csdn.net/source/1351677 修改版part2

http://download.csdn.net/source/1351721修改版part3

 一同下载

 

 

      如果大家有什么不明白的地方,可以联系我qq511134962

      msn:myhongkongzhen@gmail.com

 

 

      我试验了两台机,可以直接运行,如果下载下来不能直接运行,也请联系我,,一般是没有问题的,,

 

 

 

 

  • 大小: 10.8 KB
  • 大小: 26 KB
  • 大小: 23 KB
  • 大小: 43.2 KB
6
1
分享到:
评论

相关推荐

    nutch搜索引擎windows版本修改版

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本part1

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本part2

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本修改版part2

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本修改版part3

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch-2.1源代码

    Nutch-2.1是Apache Nutch的一个特定版本,它是一个用Java编写的开源搜索引擎软件。这个项目的主要目标是提供一套高效、可扩展的搜索引擎工具,使得用户可以在自己的环境中搭建和运行自己的搜索引擎。Nutch不仅仅是一...

    Apache Nutch 1.7 学习总结

    在完成Nutch 1.7的搭建后,你可以进一步研究其工作原理,包括爬虫策略、链接分析算法、分词技术等。同时,Nutch与Hadoop结合可以处理大规模的数据抓取和索引,这在大数据领域有着广泛的应用。通过深入学习,你可以...

    \Lucene Nutch和安装说明文旦

    Lucene是一个全文搜索引擎库,它提供了核心的搜索功能,而Nutch则是一个基于Lucene的开源网络爬虫项目,用于抓取网页并建立索引。描述中的“LuceneChapter12 光盘使用说明.DOC”可能是指一份包含第12章内容的文档,...

    Lucene2.0+Nutch0.8 API帮助文档(CHM格式)

    《Lucene2.0+Nutch0.8 API帮助文档》是一个综合性的技术资源,它包含了对Lucene 2.0和Nutch 0.8这两个关键的开源搜索引擎库的详细接口和功能说明。这两个组件在信息检索、全文搜索以及网络爬虫领域有着广泛的应用。 ...

    开源搜索框架lucene介绍

    这种技术广泛应用于搜索引擎等领域,能够极大地提高信息检索的速度和准确性。 #### 三、Lucene的特点 1. **跨平台性**:由于Lucene是基于Java编写的,因此它可以在任何支持Java运行环境的操作系统上运行,如Windows...

    lucene笔记

    - **搜索引擎**: 如Google、Bing等都是基于全文检索技术构建的。 - **站内搜索**: 大多数网站都会提供站内搜索功能,让用户能快速定位到自己感兴趣的内容。 - **文件系统搜索**: 操作系统如Windows、Mac OS中的文件...

Global site tag (gtag.js) - Google Analytics