`
banditjava
  • 浏览: 160404 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成,每个段包含一个或多个文档,每个文档管理了一个或者多个域,每个域由一个或多个索引项组成,每 ...
在我之前的Nutch爬虫试验中,是调用crawl命令直接抓取,在深入学习crawl时,发现具体的运营过程当中,需要更精细的控制整个crawl抓取过程,下面就针对nutch两种方式做一个比较。 方式一:nutch局域网抓取 $ bin/nutch crawl urls -dir craw ...
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。 可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。 crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter.txt和nutch-site.xml来配合运行,这一点在之前的文章中都提到过,就不再赘述了。 下面是我用来crawl的命令 > bin/nutch crawl urls -dir crawl ...
在网上搜索一些资料时,发现搜索引擎最热的关键字排名很意思,下面是文章的摘要,共享一下   雅虎年度十大关键词出炉不久,另一大搜索引擎公司Google的关键词搜索Top10也于 2007-12-05出炉,热门数码产品iphone位居榜首。另 ...
做了这么多年的技术,一直潜水至今,自己都狂汗,现在吧,突然想站出来喊两嗓子了。从最初的程序员到现在的管理岗位,对于技术一直都默默追求,甚至到了一两个星期不整点新东西就有点空虚的地步,但我一直没不敢在众 ...
---------------20080828------------ 下载源码,初步研究 --------------20080829------------- http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的系统。 去网上搜索了一下,发现了一篇很好的知道文档,这个给出链接地址 http://wiki.apache.org/nutch/NutchHadoopTutorial 按照这个上面的做,如果你运 ...
-----------------------20080827------------------- 深入了解hadoop http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html 一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效 ...
--------------------20080819------------ 参考文章 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/ http://hi.baidu.com/zeorliu/blog/item/36334682 ...
技术点: 需要整理研究的搜索引擎技术点(目录,无实际价值) (一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证 1,断句与分块 2,字符类型设计与识别(中文,英文,数字,半角,全角). 3,从已断句子中分析提取字符类型相同的连续字串. 4,字典类设计 5,分词算法设计   5.1,数字英文分词算法设计   5.2,中文分词算法设计 (二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证 1,标签抽取 2,文本相关性与文本分类 2.1,SVM算法 (三)Web Spider开发---------- ...
-------------------20080731------------------ 修改前端界面,修改成类似baidu的风格 修改index.jsp和results.jsp 研究IndexHTML.java 1)在meta中有中文,就解析不过去了 <meta name="keywords" content="范怡文,歌手,董事长,电子商务,b2b,商业,金融,商界精英,创业,商机,信用记录,信网,中国信网,信用记录" > <meta name="description" content="关注产 ...
---------------------------------------------------20080729--------------------------------------------------- 理解疱丁分词的基本原理,编译原码,用ANT编译 E:\workspace\searchengine\paoding-analysis-2.0.4-beta 完成了中文分词的solr集成工作,集成到solr中去,   注意:   1)需要将solr的tomcat的connector改成可接受utf8   <Connector port="8080&qu ...
---------------------------------------------------20080728--------------------------------------------------- 完成了对于heritrix的初步研究,需要用maven1.1来编译 E:\workspace\searchengine\heritrix\heritrix-1.14.0 maven disst -Dmaven.test.skip=true <开发期> 在run dialog中配置org.archive.crawler.Heritrix   在Argment ...
--------------------20080725------------------------------ apache-solr-1.2.0\example\exampledocs下面执行 java -Durl=http://localhost:8080/solr/update -jar post.jar cybertron.xml jetty java -Durl=http://localhost:8983/solr/update -jar post.jar cybertron.xml 完成了对于solr环境搭建 1)调整conf/schema.xml定义field,重新生成 ...
------------20080724------------- 通过控制台来启动lucene应用程序 step1.建立索引 >java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src 将对C:\Java\lucene-1.4\src下所有文件建立索引,同时,在当前命令行位置将生成“index”文件夹。 step2.执行查询 >java org.apache.lucene.demo.SearchFiles 将会出现“Query:”提示符,在其后输入关键字,回车,即可得到查询结果。 Web应用程序 step1.将lu ...
    老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的经验,如何是好呢?这时我脑袋里闪过的,就是需要求助开源社区了。     ...
Global site tag (gtag.js) - Google Analytics