- 浏览: 306760 次
- 性别:
- 来自: 北京
最新评论
-
dandongsoft:
你写的不好用啊
solr 同义词搜索 -
黎明lm:
meifangzi 写道楼主真厉害 都分析源码了 用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
meifangzi:
楼主真厉害 都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
zhdkn:
顶一个,最近也在学习设计模式,发现一个问题,如果老是看别人的博 ...
Java观察者模式(Observer)详解及应用 -
lvwenwen:
木南飘香 写道
高并发网站的架构
文章列表
hive 基本语法
本来想讲自己用到的写出来了,结果发现一个比较全面的文章已经介绍过了,那我就不在重新发明轮子了,我也跟着学习一下。
转自:http://jeffxie.blog.51cto.com/1365360/317524
DDL Operations
创建表
hive> CREATE TABLE pokes (foo INT, bar STRING);
创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
显示所有表
hive> SHO ...
hive安装教程
由于为了处理大量的搜索日志,所以经过考察决定使用hive作为数据仓库来分析处理大量的用户搜索日志,安装了hive 并且集成了hbase,最近还是有很多人问我hive怎么安装,那我就把我安装的过程公开吧,希望哪里不对的地方大家指正下。
1. 官网下载hive
http://mirror.bit.edu.cn/apache//hive/hive-0.7.1/
注:由于我的hadoop版本是hadoop-0.20.2 ,因此只能用hive-0.7+ 版本
2.将hive上传到待安装目录,我的目录是/server/bin下.
解压 tar -zvxf hive-0.7. ...
错误:hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink
某次运行一个任务时,报出了以下的错误提示:
10/12/10 21:09:05 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 10.1.73.148:50010
10/12/10 21:09:0 ...
JVM学习笔记-方法区示例与常量池解析(Method Area Use And Constant Pool Resolution)
博客分类: jvmjava方法区
As an example of how the Java Virtual Machine uses the information it stores in the method area, consider these classes:
为了展示虚拟机如何使用方法区中的信息,我们举个例子,看下面这个类:
begin
// On CD-ROM in file jvm/ex2/Lava.java
class Lava {
...
JVM调优
1. Heap设定与垃圾回收
Java Heap分为3个区,Young,Old和Permanent。Young保存刚实例化的对象。当该区被填满时,GC会将对象移到Old区。Permanent区则负责保存反射对象,本文不讨论该区。
JVM的Heap分配可以使用-X参数设定,
-Xms 初始Heap大小
-Xmx java heap最大值
-Xmn young generation的heap大小
JVM 有2个GC线程。第一个线程负责回收Heap的Young区。第二个线程在Heap不足时, ...
转载自:http://www.blogjava.net/midstr/archive/2008/09/21/230265.html
jdk1.4.2 JVM官方地址:http://java.sun.com/j2se/1.4.2/docs/guide/vm/index.html
标准和非标注参数(for windows):
http://java.sun.com/j2se/1.4.2/docs/tooldocs/windows/java.html
非stable参数:http://java.sun.com ...
Java虚拟机(JVM)参数简介
在Java、J2EE大型应用中,JVM非标准参数的配置直接关系到整个系统的性能。
JVM非标准参数指的是JVM底层的一些配置参数,这些参数在一般开发中默认即可,不需要任何配置。但是在生产环境中,为了提高性能,往往需要调整这些参数,以求系统达到最佳新能。
另外这些参数的配置也是影响系统稳定性的一个重要因素,相信大多数Java开发人员都见过“OutOfMemory”类型的错误。呵呵,这其中很可能就是JVM参数配置不当或者就没有配置没意识到配置引起的。
为了说明这些参数,还需要说说JDK中的命令行工具一些知识做铺垫。
首先看如何获取这些命令配置信息说明:
...
The begining
There is one thing that you must know – Suggest component is not available in Solr version 1.4.1 and below. To start using this component you need to download 3_x or trunk version from Lucene/Solr SVN.
Configuration
Before we get into the index configuration we need to define an sear ...
The begining
There is one thing that you must know – Suggest component is not available in Solr version 1.4.1 and below. To start using this component you need to download 3_x or trunk version from Lucene/Solr SVN.
Configuration
Before we get into the index configuration we need to define an sear ...
首先看一个例子:
假设有3篇文章,file1, file2, file3,文件内容如下:
file1 (单词1,单词2,单词3,单词4....)
file2 (单词a,单词b,单词c,单词d....)
file3 (单词1,单词a,单词3,单词d....)
那么建立的倒排索引就是这个样子:
单词1 (file1,file3)
单词2 (file1)
单词3 (file1,file3)
单词a (file2, file3)
....
倒排索引的概念很简单:就是将文件中的单词作为关键字,然后建立单词与文件的映射关系。当然,你还可以添加文件中单词出现的频 ...
hadoop SequenceFile 详解
SequenceFile 是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。
SequenceFile分别提供了读、写、排序的操作类。
SequenceFile的操作中有三种处理方式:
1) 不压缩数据直接存储。 //enum.NONE
2) 压缩value值不压缩key值存储的存储方式。//enum.RECORD
3) ...
搜索引擎网页排序算法研究
(转自中点线网络:http://www.cnbjyh.com/seo/201103075540.html)
随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成千上万,所以对于任何一个搜索引擎而言,都 ...
文本表示 --- VSM
2011-12-09 22:43
本文转自: http://hxraid.iteye.com/blog/765768
要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。
目前文本表示通常采用向量空间模型(vector space model, VSM) 。VSM是20世纪60年代末期由G. Salton等人提出的,是当前自然语言处理中常用的主流模型。
下面首先给出VSM设计的基本概念:
(1) 文档(document): 通常是文章中具有一 ...
public void fenci() {
int j = 0;
int kp =0;
while(j < sentence.length()){
for(int i = maxlength;i >0;i--){
kp = i+j;
if(kp > sentence.length()){
kp = sentence.length();
}
String key = sentence.substring(j, kp).trim();
if(LoadDictionary.h ...
Lucene的分词原理与分词系统
lucene算法Solr搜索引擎全文检
分词原理
建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。
分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。
1、 英文分词的原理
基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。
2、 中文分词原理
中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。 ...