`
ld_hust
  • 浏览: 171630 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论
文章列表
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了,做个资料库;你可以把一个数据库表的若干个字段索引起来,那就不用再担心因为“%like%”而锁 ...
算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分 ...
于Lucene的analyisis包下的Standard包下的StandardAnalyzer()功能很强大,而且支持CJK分词,我们简要说一下. 此包下的文件是有StandardTokenizer.jj经过javac命令生成的.由于是机器自动生成的代码,可能可读性很差,想了解的话好好看看那个StandardTokenizer.jj文件就会比较明了了. Lucene常用的Analyzer功能概述. WhitespaceAnalyzer:仅仅是去除空格,对字符没有
到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器. 如何DIY一个功能更加强大Analyzer 譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单 你只要把他们包装成Lucene的TokenStream就好了.下边我以调用中科院写的ICTCLAS接口为例,进行演示.你去中科院 网站可以拿到此接口的free版本,谁叫你没钱呢,
我想主要的问题是权限的问题,你先在本机将config文件设置为只有自己的机器,运行一下该程序看看,如果不能运行,多机当然就更不行了,这说明本机的设置有问题。如何解决这一问题,我的经验是,你可以在两台机器上分别 ...
MPI开发包安装        下载完毕,开始安装MPICH2开发包,提示需要.NET 1.1 框架。鉴于本人对VS.NET 2003爱好,直接安装了整个开发环境,也可以只安装.NET框架。可以到微软官方网站下载安装包(http://msdn.microsoft.com/netframework/downloads/framework1_1/)。安装.NET框架后便可以安装MPICH2开发包。安装后可以看到MPICH2目录层次: 环境配置        “我的电脑”path中设置MPICH2的bin目录(%MPICH2%\bin)以便运行mpiexec程序。我的具体设置如下: ...
使用VC8.0及MPICH2-1.0.5 for Windows进行MPI并行程序设计.下面我们将编写一个简单的并行求和 程序,实现一个非常简单的功能 ,将一个文件中的1000个数相加.这里面用到了数据的广播与进程值的归约. 程序1 将1000个随机数相加 #include " ...
我所使用的开发语言是C/C++,运行在两种环境下,分别是:Microsoft Windows XP Professional和Microsoft Windows Server 2003.开发工具为Microsoft Visual Studio 2005。安装完MPICH2后,要将MPI库添加到Visual Studio的库目录中,将inculde文件添加到Visual Studio的include目录中。具体步骤如下: 1.  单击“Tools”菜单,选择“Option”,在弹出对话框中双击树型目录中的“Projects and Solutions”,打开之。在其子目录里面选中“VC++Dir ...
MPICH2是与MPI-2相对应的MPICH实现版本,包含了MPI-2相对于MPI-1扩充后的一些功能,比如动态任务管理,并行I/O等。当前最新版本是MPICH2-1.0.5. 2.3.1    MPICH2 for Microsoft Windows 的安装与配置 安装MPICH2 for Microsoft Windows 对系统有如下要 ...
MPICH 的安装(for winXP) 为了做MPI的作业,不得不装个这个。安装说明弄得我稀里糊涂,琢磨了半天总算搞定了。 总结步骤如下:1 安装Microsoft .NET Framework 版本 1.1,简体中文版.exe,一直Next即可 2 安装mpich2-1.0.3-1-win32-ia32.msi,一直Next即可;3 先看看网上的安装说明:      以管理员的身份登录每台主机,在所有主机上建立一个同样的账户(当然也可以每个机器使用不同的用户名和账户,然后建立一个配置文件,使用命令行的方式运行程序),然后,运行下载的安装文件,将MPICH 安装到每台主机上。     ...
Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。抽象类 FileSystem,提高了一系列对文件/目录操作的接口,还有一些辅助方法。分别说明一下:1. open,create,delete ...
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74 这 ...
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细 ...
五、文件系统元数据的持久化    Namenode存储HDFS的元数据。对于任何对文件元数据产生修改的操作,Namenode都使用一个称为Editlog的事务日志记录下来。例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样,修改文件的replication因子也将往 Editlog插入一条记录。Namenode在本地OS的文件系统中存储这个Editlog。整个文件系统的namespace,包括block到文件的映射、文件的属性,都存储在称为FsImage的文件中,这个文件也是放在Namenode所在系统的文件系统上。    Namenode在内存中保存 ...
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致 ...
Global site tag (gtag.js) - Google Analytics