Lucene开源搜索引擎的索引目录结构

博客分类：

搜索引擎

搜索引擎数据结构 lucene

Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成，每个段包含一个或多个文档，每个文档管理了一个或者多个域，每个域由一个或多个索引项组成，每� ...

2008-09-22 10:22
浏览 2633
评论(0)
分类:互联网

Nutch开源搜索引擎crawl的两种方式比较

博客分类：

搜索引擎

搜索引擎互联网 .net 网络协议 F#

在我之前的Nutch爬虫试验中，是调用crawl命令直接抓取，在深入学习crawl时，发现具体的运营过程当中，需要更精细的控制整个crawl抓取过程，下面就针对nutch两种方式做一个比较。方式一：nutch局域网抓取 $ bin/nutch crawl urls -dir craw ...

2008-09-22 10:19
浏览 4272
评论(1)
分类:互联网

Nutch开源搜索引擎的crawl日志分析及工作目录说明

博客分类：

搜索引擎

搜索引擎工作 Hadoop lucene Mapreduce

看了nutch关于crawl的源码后，我将crawl的日志分析了一下，主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。可以通过nutch来深入学习Hadoop编程，都是比较横的代码。这一块待以后研究完毕后，blog出来。 crawl通过nutch-default.xml参数来控制运行过程，另外需要修改crawl-urlfilter.txt和nutch-site.xml来配合运行，这一点在之前的文章中都提到过，就不再赘述了。下面是我用来crawl的命令 > bin/nutch crawl urls -dir crawl ...

2008-09-19 17:42
浏览 3889
评论(1)
分类:互联网

搜索引擎最热的关键字是什么？

博客分类：

搜索引擎

搜索引擎游戏 Youtube MySpace Facebook

在网上搜索一些资料时，发现搜索引擎最热的关键字排名很意思，下面是文章的摘要，共享一下雅虎年度十大关键词出炉不久，另一大搜索引擎公司Google的关键词搜索Top10也于 2007-12-05出炉，热门数码产品iphone位居榜首。另� ...

2008-09-18 14:05
浏览 1643
评论(0)

从潜水员到blogger的过程

博客分类：

随想

Hibernate EJB Bean Linux 应用服务器

做了这么多年的技术，一直潜水至今，自己都狂汗，现在吧，突然想站出来喊两嗓子了。从最初的程序员到现在的管理岗位，对于技术一直都默默追求，甚至到了一两个星期不整点新东西就有点空虚的地步，但我一直没不敢在众� ...

2008-09-12 11:34
浏览 1418
评论(4)

研究Nutch开源搜索引擎心得记录

博客分类：

搜索引擎

搜索引擎 Hadoop Ant Tomcat Apache

---------------20080828------------ 下载源码，初步研究 --------------20080829------------- http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的，也就是一个分布式的系统。去网上搜索了一下，发现了一篇很好的知道文档，这个给出链接地址 http://wiki.apache.org/nutch/NutchHadoopTutorial 按照这个上面的做，如果你运 ...

2008-09-11 16:07
浏览 3644
评论(1)
分类:互联网

深入了解Hadoop

博客分类：

搜索引擎

Hadoop 网络应用 Rack 数据结构配置管理

-----------------------20080827------------------- 深入了解hadoop http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html 一、前提和设计目标 1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效 ...

2008-09-11 16:05
浏览 2244
评论(0)
分类:互联网

研究hadoop分布式计算平台及三台服务器的实现

博客分类：

搜索引擎

Hadoop 应用服务器浏览器 SSH OpenSource

--------------------20080819------------ 参考文章 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/ http://hi.baidu.com/zeorliu/blog/item/36334682 ...

2008-09-11 16:03
浏览 3158
评论(1)
分类:互联网

搜索引擎技术点的整理

博客分类：

搜索引擎

搜索引擎算法 lucene 设计模式 Cache

技术点：需要整理研究的搜索引擎技术点(目录，无实际价值) (一)中文分词部分－－－－－－－－－－由paoding来解决，但下面的项目是否全部解决，还没有验证 1,断句与分块 2,字符类型设计与识别(中文，英文，数字，半角，全角). 3,从已断句子中分析提取字符类型相同的连续字串. 4,字典类设计 5,分词算法设计 5.1,数字英文分词算法设计 5.2,中文分词算法设计 (二)分词应用部分－－－－－－－－－－由paoding来解决，但下面的项目是否全部解决，还没有验证 1,标签抽取 2,文本相关性与文本分类 2.1,SVM算法 (三)Web Spider开发－－－－－－－－－－ ...

2008-09-11 15:56
浏览 1777
评论(3)

开始改造lucene的demo，为我所用

博客分类：

搜索引擎

lucene JSP 多线程 Apache HTML

-------------------20080731------------------ 修改前端界面，修改成类似baidu的风格修改index.jsp和results.jsp 研究IndexHTML.java 1)在meta中有中文，就解析不过去了 <meta name="keywords" content="范怡文,歌手,董事长,电子商务,b2b,商业,金融,商界精英,创业,商机,信用记录,信网,中国信网,信用记录" > <meta name="description" content="关注产 ...

2008-09-11 15:54
浏览 2553
评论(0)
分类:互联网

完成了paoding与lucene的集成

博客分类：

搜索引擎

lucene Solr .net Apache Tomcat

---------------------------------------------------20080729--------------------------------------------------- 理解疱丁分词的基本原理，编译原码，用ANT编译 E:\workspace\searchengine\paoding-analysis-2.0.4-beta 完成了中文分词的solr集成工作，集成到solr中去，注意： 1)需要将solr的tomcat的connector改成可接受utf8 <Connector port="8080&qu ...

2008-09-11 15:53
浏览 5056
评论(1)
分类:互联网

完成了对于heritrix的初步研究

博客分类：

搜索引擎

maven

---------------------------------------------------20080728--------------------------------------------------- 完成了对于heritrix的初步研究，需要用maven1.1来编译 E:\workspace\searchengine\heritrix\heritrix-1.14.0 maven disst -Dmaven.test.skip=true <开发期> 在run dialog中配置org.archive.crawler.Heritrix 在Argment ...

2008-09-11 15:52
浏览 2039
评论(1)

研究一下solr

博客分类：

搜索引擎

Solr lucene PHP Tomcat XML

--------------------20080725------------------------------ apache-solr-1.2.0\example\exampledocs下面执行 java -Durl=http://localhost:8080/solr/update -jar post.jar cybertron.xml jetty java -Durl=http://localhost:8983/solr/update -jar post.jar cybertron.xml 完成了对于solr环境搭建 1)调整conf/schema.xml定义field，重新生成 ...

2008-09-11 15:51
浏览 2053
评论(0)
分类:互联网

完成了对于lucene的初步理解和环境搭建

博客分类：

搜索引擎

lucene Java Tomcat Apache C#

－－－－－－－－－－－－20080724－－－－－－－－－－－－－通过控制台来启动lucene应用程序 step1.建立索引 >java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src 将对C:\Java\lucene-1.4\src下所有文件建立索引，同时，在当前命令行位置将生成“index”文件夹。 step2.执行查询 >java org.apache.lucene.demo.SearchFiles 将会出现“Query:”提示符，在其后输入关键字，回车，即可得到查询结果。 Web应用程序 step1.将lu ...

2008-09-11 15:50
浏览 4111
评论(8)
分类:互联网

我的开源搜索引擎之路

博客分类：

搜索引擎

搜索引擎 Solr lucene Hadoop Mapreduce

老板要求在一个月内搭建出一个搜索引擎出来，先期要求做一个站内搜索就可以了。于是我只有苦笑了，搜索引擎谈何容易，而之前没有这方面的经验，如何是好呢？这时我脑袋里闪过的，就是需要求助开源社区了。 ...

2008-09-11 15:41
浏览 25921
评论(39)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene开源搜索引擎的索引目录结构

Nutch开源搜索引擎crawl的两种方式比较

Nutch开源搜索引擎的crawl日志分析及工作目录说明

搜索引擎最热的关键字是什么？

从潜水员到blogger的过程

研究Nutch开源搜索引擎心得记录

深入了解Hadoop

研究hadoop分布式计算平台及三台服务器的实现

搜索引擎技术点的整理

开始改造lucene的demo，为我所用

完成了paoding与lucene的集成

完成了对于heritrix的初步研究

研究一下solr

完成了对于lucene的初步理解和环境搭建

我的开源搜索引擎之路

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>