`
coderplay
  • 浏览: 577046 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论
文章列表
文本材料大小: 43.9 MB 文件数目: 19997个 分析器:    lucene标准StandardAnalyzer lucene-2.2.0 索引大小: 16,901,638 字节 耗时: 158094 total milliseconds 110437 total milliseconds 106328 total milliseconds lucene-2.3.2 索引大小: 16,177,772字节 默认16M缓存耗时: 15407 total milliseconds 15500 total milliseconds 设置64M缓存耗时: 13578 total mil ...
有NFS, haproxy/lvs等解决方案。 或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统   为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。 3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。   另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架 ...
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。 且看前面几条: 财务软件实施和服务顾问     参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   看样子是采用的二元分词做的。   http://shenghuo.google.cn 是google生活方面的垂直搜索引擎。貌似刚刚起步,主要是中华英才网, 51job, 智联招聘几个网站的资料。搜索“和服”这个词,只有两条结果。第一条与服 ...
2007-12-17 23:06:01 lct The solution to these problems is to replace dynamically-dispatched messages with one or more statically-bound procedure calls wherever possible, to inline-expand the callee methods whenever the callee is small (a common case given the presence of accessor methods, user-define ...
  抓取了系里的网站 http://cs.jnu.edu.cn 和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.
中文分词是中文信息检索的基础,也是一项难题。 下面随手做的一个演示, lucene的Analyzer扩展。  
MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现 调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content> Reduce()是同一化 输出: 两种文件: <url,CrawlDatum>, <url,Content>  
MapReduce1:选择要获取的urls [list]   输入:爬虫数据库文件 public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFileInputFormat.class); }   Map() -> 如果date <= now, 反转成<CrawlDatum, url> /** Selects entries due f ...
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。 参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式   输入:未处理的,包含url信息的文本文件   Map(line) -> <url, CrawlDatum>; status=db_unfetched   Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)   ...
使用figure会进行浮动环境,这样插的图latex会自动调整。 一般我们不需要这样的功能。 可以使用 \begin{figure}[h] \end{figure} 或者使用\includegraphics 插入,如果列figure估计列不出来 如果想要放在自己指定位置并且需要交叉引用的话,要使用以下的格式: \makeatletter \def\@captype{figure} \makeatother \includegraphics{*.eps} \caption{...\label{...}}
比如pstopdf的, 以前用的都是ps2pdf.exe 现在这儿是用 >texmfstart --verbose pstopdf.rb beamertest.ps texmfstart version 2.0.3 locating 'pstopdf.rb' in current path '.' locating 'pstopdf.rb' in caller path './../ruby' kpse     : direct (forced) using kpsewhich variable RUBYINPUTS testing './pstopdf.rb' testing 'e:/t ...
中文没有粗体,斜体。这些都是洋文的, windows上的都是伪粗,伪斜。
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。 2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。 3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。 4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。 比如: package org.apache.hadoop.mapred.lib; import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.Writable ...
Global site tag (gtag.js) - Google Analytics