- 浏览: 110755 次
- 性别:
- 来自: 北京
最新评论
-
chenbaiyang12csdn:
你好,运行LDA之后,使用工具打印出来结果这一部分能否给予一个 ...
mahout中LDA简介以及示例 -
Open-Uheart:
有一个老项目,应用的是apache-solr-1.4.1 出现 ...
solr admin UI
文章列表
/*
This is the current indexing chain:
DocConsumer / DocConsumerPerThread
--> code: DocFieldProcessor
--> DocFieldConsumer / DocFieldConsumerPerField
--> code: DocFieldConsumers / DocFieldConsumersPerField
--> code: D ...
在运行时动态加载jar包容易,但是如果想动态替换运行时的类,需要定义自己的classloader , 用自己的classloader 来load这个类。具体代码如下。
public class UClassloader extends URLClassLoader{
public UClassloader(URL[] urls) {
super(urls);
}
public static void main(String args[]) throws IOException, SecurityException, ClassNotFoundExcepti ...
lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧:
1. Prefix + Suffix
在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。
比如存储如下几个词: term, termagancy, termagant, terminal .
按照正常的方法来存储,需要 4 + 10 + 9 + 8 = 29.
如果使用这个技巧, termagancy 被存储成 [4][a][g][a][n][c] ...
lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。
class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。
通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象:
private final Directory directory; // where this index resides
private final Analyzer analyzer; // how to analyze ...
1。 加权限:
grant alter,create,select,insert,update,delete,index on recommend.* to growth@10.1.1.1 Identified by "growth";
flush privileges;
2. 在更新这条数据的时候更新时间:
alter table feed change update_time update_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP;
3 ...
首先使用 yum 安装 输入命令:
yum install httpd php
然后理论上httpd 已经把 php modul加进去了 没加请手动添加:
LoadModule php5_module modules/libphp5.so
想要在html中执行php 代码,表示以下后缀名可以使用php引擎,请输入:
AddType application/x-httpd-php .php
AddType application/x-httpd-php .htm
AddType application/x-httpd-php .html
这样就ok了。
多域名 ...
名词解释:
document 包含一系列的fields
field是一系列terms的代号
term是一系列的bytes
倒排索引:
这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。
fields的类型:
一个field能够被stored,如果这么设置,他会被保存到一个非倒排的索引中。
一个field会被用来切词以方便更好的索引。
segments:
apache的索引包含多个子索引,一个segment是全套的索引,可以被独立的搜索。
整 ...
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。
结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。
非结构化就是无固定格式和不定长的数据,比如邮件和word文档。
还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。
非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。
一种最直观的方法可以顺序扫瞄,速度非常慢。还有一种方法,我们把非结构数据中的一些信息抽取出来,然后变成结构化的,从而达到搜索相对较快的目的。重新抽取出来的信息我们称之为索引。举个例子,字典的拼音表就相当于索引,对于每个字 ...
删除5天以上的log: find deploy/log -type f -ctime +5 -exec rm -f {} \;
替换文件夹下指定文件字符串:
find . -name "*.html" | xargs sed -i "s/xxxx/oooo/g"
注意特殊字符的转义 如 [{($
比如 {:U('item/index',array('id'=>$item['id']))}
要用egrep 的话 得 egrep --color "\{:U\('item/index',arr ...
ssh-keygen -t rsa (连续三次回车,即在本地生成了公钥和私钥,不设置密码ssh root@B "mkdir .ssh;chmod 0700 .ssh" (需要输入密码) scp ~/.ssh/id_rsa.pub root@B:~/.ssh (需要输入密码) 在B上的命令: touch /root/.ssh/authorized_keys (如果已经存在这个文件, 跳过这条) cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys (将id_rsa.pub的内容追加到 authorize ...
翻译自 Apache Solr Reference Guide
solr提供了一个十分灵活,可拓展的搜索特性,当我们发送一个请求的时候,一个search query 被一个叫做requst handler处理,solr提供许多类型的request handler,有的是为了处理搜索请求的,还有一些 ...
原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html
不废话直接上图:
1)优先级(priority)
每个类都有自己的优先级,一般property用1-10的整数表示,默认优先级是5,优先级最高是10;优先级高的线程并不一定比优先级低的线程执行的机会高,只是执行的机率高;默认一个线程的优先级和创建他的线程优先级相同;
2)Thread.sleep()/sleep(long millis)
当前线程睡眠/millis的时间(millis指定睡眠时间是其最小的不执行时间,因为sleep( ...
翻译自 Apache Solr Reference Guide
indexing:
solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。
有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式是最推荐的,如果作为一个应用程序的话。
这里有个最基本的数据结构,一个document包含多个field,一个field最起码有个name,和value,一个document中最起码有个field能够 ...
翻译自 Apache Solr Reference Guide
Analyzer:
analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如:
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
...
翻译自 Apache Solr Reference Guide
solr一个最基本的设计原则是简洁, 你告诉他很多信息,然后问他一些问题,他会给你回答的一段信息,你喂给他的这部分叫做 indexing, 你问他的问题叫做 query。
一个理解solr的方法是举个例 ...