lucene2.3.2与2.2.0建索引的速度比较

博客分类：

lucene&nutch

文本材料大小: 43.9 MB 文件数目: 19997个分析器: lucene标准StandardAnalyzer lucene-2.2.0 索引大小: 16,901,638 字节耗时: 158094 total milliseconds 110437 total milliseconds 106328 total milliseconds lucene-2.3.2 索引大小: 16,177,772字节默认16M缓存耗时: 15407 total milliseconds 15500 total milliseconds 设置64M缓存耗时: 13578 total mil ...

2008-07-29 22:42
浏览 4723
评论(3)

关于分布式lucene

博客分类：

lucene&nutch

lucene Hadoop .net

有NFS, haproxy/lvs等解决方案。或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小，所以用HDFS存储不是很有效。 3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。另外，自己建立一个lucene特有的索引存储，可以加深对hadoop架 ...

2008-07-07 14:15
浏览 6741
评论(2)

职友集的搜索

博客分类：

lucene&nutch

搜索引擎招聘 Google 生活

我先试了一个搜索“和服”，这个词，返回1092条结果。不过应该都是没用的。且看前面几条：财务软件实施和服务顾问参考工资查看人脉服务经理和服务工程师Service Manager and Engineer 参考工资查看人脉服务经理和服务工程师Service Manager and Engineer 参考工资看样子是采用的二元分词做的。 http://shenghuo.google.cn 是google生活方面的垂直搜索引擎。貌似刚刚起步，主要是中华英才网, 51job, 智联招聘几个网站的资料。搜索“和服”这个词，只有两条结果。第一条与服 ...

2008-07-04 12:45
浏览 4636
评论(0)

单分派与多分派,聊天记录

博客分类：

misc

OOP

2007-12-17 23:06:01 lct The solution to these problems is to replace dynamically-dispatched messages with one or more statically-bound procedure calls wherever possible, to inline-expand the callee methods whenever the callee is small (a common case given the presence of accessor methods, user-define ...

2008-06-14 19:11
浏览 4371
评论(0)

nutch演示

博客分类：

lucene&nutch

lucene Apache

抓取了系里的网站 http://cs.jnu.edu.cn 和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.

2008-05-23 20:08
浏览 4557
评论(0)

中文分词演示

博客分类：

lucene&nutch

lucene

中文分词是中文信息检索的基础,也是一项难题。下面随手做的一个演示, lucene的Analyzer扩展。

2008-05-23 20:03
浏览 4880
评论(0)

nutch源代码分析之ParseSegment

博客分类：

lucene&nutch

parsesegment crawl nutch lucene hadoop mapreduce

ParseSegment

2008-05-20 19:36
浏览 4223
评论(0)

nutch源代码分析之Fetcher

博客分类：

lucene&nutch

Mapreduce 多线程

MapReduce：获取的urls集输入：<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content> Reduce()是同一化输出: 两种文件: <url,CrawlDatum>, <url,Content>

2008-05-20 17:28
浏览 5825
评论(0)

nutch源代码分析之Generator

博客分类：

lucene&nutch

UP

MapReduce1：选择要获取的urls [list] 输入：爬虫数据库文件 public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFileInputFormat.class); } Map() -> 如果date <= now, 反转成<CrawlDatum, url> /** Selects entries due f ...

2008-05-20 03:33
浏览 7699
评论(0)

nutch源代码分析之Injector

博客分类：

lucene&nutch

Hadoop Mapreduce

Injector分两步MapReduce操作：获取爬虫数据、将数据合并到爬虫数据库中。参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式输入：未处理的，包含url信息的文本文件 Map(line) -> <url, CrawlDatum>; status=db_unfetched Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer) ...

2008-05-20 03:14
浏览 6553
评论(0)
分类:编程语言

latex插图位置问题

博客分类：

misc

latex figure

使用figure会进行浮动环境,这样插的图latex会自动调整。一般我们不需要这样的功能。可以使用 \begin{figure}[h] \end{figure} 或者使用\includegraphics 插入,如果列figure估计列不出来如果想要放在自己指定位置并且需要交叉引用的话，要使用以下的格式： \makeatletter \def\@captype{figure} \makeatother \includegraphics{*.eps} \caption{...\label{...}}

2008-05-14 15:05
浏览 10844
评论(0)

texlive下面有很多程序执行ruby脚本

博客分类：

misc

Ruby 脚本 thread

比如pstopdf的, 以前用的都是ps2pdf.exe 现在这儿是用 >texmfstart --verbose pstopdf.rb beamertest.ps texmfstart version 2.0.3 locating 'pstopdf.rb' in current path '.' locating 'pstopdf.rb' in caller path './../ruby' kpse : direct (forced) using kpsewhich variable RUBYINPUTS testing './pstopdf.rb' testing 'e:/t ...

2008-05-14 03:41
浏览 4266
评论(0)

中文粗体,斜体的问题

博客分类：

misc

Windows

中文没有粗体，斜体。这些都是洋文的， windows上的都是伪粗，伪斜。

2008-05-12 17:43
浏览 4807
评论(0)

关于canopy聚类的几点思考

博客分类：

redpoll

F#

1. 首先是轻量距离量度的选择，是选择数据模型其中的一个属性，还是其它外部属性这对canopy的分布最为重要。 2. T1, T2的取值影响到canopy重叠率f，以及canopy的粒度。 3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后，可以删除那些包含数据点数目较少的canopy，往往这些canopy是包含孤立点的。 4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好

2008-05-10 12:47
浏览 5148
评论(1)

hadoop的reducer输出多个文件

博客分类：

mapreduce&parallel

Hadoop Apache

有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件，同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。比如： package org.apache.hadoop.mapred.lib; import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.Writable ...

2008-05-08 19:39
浏览 10268
评论(2)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene2.3.2与2.2.0建索引的速度比较

关于分布式lucene

职友集的搜索

单分派与多分派,聊天记录

nutch演示

中文分词演示

nutch源代码分析之ParseSegment

nutch源代码分析之Fetcher

nutch源代码分析之Generator

nutch源代码分析之Injector

latex插图位置问题

texlive下面有很多程序执行ruby脚本

中文粗体,斜体的问题

关于canopy聚类的几点思考

hadoop的reducer输出多个文件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>