- 浏览: 577046 次
- 性别:
- 来自: 广州杭州
最新评论
-
bohc:
谢谢,搞了两天了,现在才算是找到问题所在,解决了。
文件在使用FileChannel.map后不能被删除(Windows上) -
zhang0000jun:
在jdk1.8中执行正好和楼主的结果相反,请指教
从Java视角理解CPU缓存(CPU Cache) -
在世界的中心呼喚愛:
forenroll 写道请问楼主的那个分析工具cachemis ...
从Java视角理解CPU缓存(CPU Cache) -
xgj1988:
我这里打出的结果是: 0 L1-dcache-load-mis ...
从Java视角理解CPU缓存(CPU Cache) -
thebye85:
请教下大神,为什么频繁的park会导致大量context sw ...
从Java视角理解CPU上下文切换(Context Switch)
文章列表
文本材料大小: 43.9 MB
文件数目: 19997个
分析器: lucene标准StandardAnalyzer
lucene-2.2.0
索引大小: 16,901,638 字节
耗时:
158094 total milliseconds
110437 total milliseconds
106328 total milliseconds
lucene-2.3.2
索引大小: 16,177,772字节
默认16M缓存耗时:
15407 total milliseconds
15500 total milliseconds
设置64M缓存耗时:
13578 total mil ...
- 2008-07-29 22:42
- 浏览 4701
- 评论(3)
有NFS, haproxy/lvs等解决方案。
或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统
为什么不用hadoop的HDFS?
原因有三:
1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。
3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。
另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架 ...
- 2008-07-07 14:15
- 浏览 6681
- 评论(2)
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。
且看前面几条:
财务软件实施和服务顾问 参考工资 查看人脉
服务经理和服务工程师Service Manager and Engineer 参考工资 查看人脉
服务经理和服务工程师Service Manager and Engineer 参考工资
看样子是采用的二元分词做的。
http://shenghuo.google.cn 是google生活方面的垂直搜索引擎。貌似刚刚起步,主要是中华英才网, 51job, 智联招聘几个网站的资料。搜索“和服”这个词,只有两条结果。第一条与服 ...
- 2008-07-04 12:45
- 浏览 4599
- 评论(0)
2007-12-17 23:06:01 lct
The solution to these problems is to replace
dynamically-dispatched messages with one or more statically-bound procedure calls
wherever possible, to inline-expand the callee methods whenever the callee is small (a
common case given the presence of accessor methods, user-define ...
- 2008-06-14 19:11
- 浏览 4312
- 评论(0)
抓取了系里的网站 http://cs.jnu.edu.cn
和lucene的网站 http://lucene.apache.org/
然后对这两个网站进行搜索.
- 2008-05-23 20:08
- 浏览 4527
- 评论(0)
中文分词是中文信息检索的基础,也是一项难题。
下面随手做的一个演示, lucene的Analyzer扩展。
- 2008-05-23 20:03
- 浏览 4854
- 评论(0)
ParseSegment
- 2008-05-20 19:36
- 浏览 4180
- 评论(0)
MapReduce:获取的urls集
输入:<url,CrawlDatum>, 按主机分块, 按hash排序
Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
通过多线程、异步map实现
调用已有的Nutch协议插件
FetcherOutput: <CrawlDatum, 网页内容Content>
Reduce()是同一化
输出: 两种文件: <url,CrawlDatum>, <url,Content>
- 2008-05-20 17:28
- 浏览 5784
- 评论(0)
MapReduce1:选择要获取的urls
[list]
输入:爬虫数据库文件
public Path generate(...) {
...
job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME));
job.setInputFormat(SequenceFileInputFormat.class);
}
Map() -> 如果date <= now, 反转成<CrawlDatum, url>
/** Selects entries due f ...
- 2008-05-20 03:33
- 浏览 7672
- 评论(0)
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db_unfetched
Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)
...
使用figure会进行浮动环境,这样插的图latex会自动调整。 一般我们不需要这样的功能。
可以使用
\begin{figure}[h]
\end{figure}
或者使用\includegraphics 插入,如果列figure估计列不出来
如果想要放在自己指定位置并且需要交叉引用的话,要使用以下的格式:
\makeatletter
\def\@captype{figure}
\makeatother
\includegraphics{*.eps}
\caption{...\label{...}}
- 2008-05-14 15:05
- 浏览 10770
- 评论(0)
比如pstopdf的, 以前用的都是ps2pdf.exe
现在这儿是用
>texmfstart --verbose pstopdf.rb beamertest.ps
texmfstart version 2.0.3
locating 'pstopdf.rb' in current path '.'
locating 'pstopdf.rb' in caller path './../ruby'
kpse : direct (forced)
using kpsewhich variable RUBYINPUTS
testing './pstopdf.rb'
testing 'e:/t ...
- 2008-05-14 03:41
- 浏览 4235
- 评论(0)
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
- 2008-05-10 12:47
- 浏览 5098
- 评论(1)
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。
比如:
package org.apache.hadoop.mapred.lib;
import java.io.IOException;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.io.Writable ...
- 2008-05-08 19:39
- 浏览 10245
- 评论(2)