- 浏览: 11348 次
- 性别:
- 来自: 北京
最新评论
文章列表
Apache+Tomcat集群
- 博客分类:
- java
1.jdk安装略
2.下载apache,传送门http://download.csdn.net/detail/u013483509/6850865
3.配置Apache
将下载下来的Apache解压,修改httpd.conf配置文件
37行: ServerRoot "apache目录" (e.g. 'c:\apache24' 改为 d:\apache)
217行:ServerName 服务器名称 (e.g demo.app.com or 127.0.0.1)去掉#
241行: DocumentRoot 修改网站根目录地址
242行:<Directory &quo ...
转自http://www.google.com.hk/ggblog/googlechinablog/2006/05/blog-post_3044.html
[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]
世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出 ...
数学之美 系列十三 信息指纹及其应用
- 博客分类:
- 搜索
转自http://www.google.com.hk/ggblog/googlechinablog/2006/08/blog-post_8115.html
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。
我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接存储网址,既费内存空间,又浪费查找时间。现在的网址一般都较长,比如,如果在 G ...
转自http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速 ...
lucene3.4文档得分
- 博客分类:
- 搜索
public static void main(String[] args) throws Exception {
Directory dir =new RAMDirectory();
IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_34, new StandardAnalyzer(Version.LUCENE_34));
IndexWriter writer = new IndexWriter(dir,conf);
Docum ...
virtualbox克隆
- 博客分类:
- linux
D:\Program Files\Sun\VirtualBox>VBoxManage.exe clonevdi "D:\Program Files\ubuntu
\ubuntu.vdi" "D:\Program Files\ubuntu1\ubuntu1.vdi"
VirtualBox Command Line Management Interface Version 3.0.12
(C) 2005-2009 Sun Microsystems, Inc.
All rights reserved.
0%...10%...20%...30%...40% ...
ubuntu屏蔽ipv6
- 博客分类:
- linux
来自http://wiki.ubuntu.org.cn/index.php?title=%E5%A6%82%E4%BD%95%E7%A6%81%E7%94%A8IPv6&variant=zh-tw
禁用 IPv6
for ubuntu
1. 在终端下输入 gksudo gedit /etc/modprobe.d/aliases
2. 注释掉这一行 alias net-pf-10 ipv6
3. 存盘
4. 在终端下输入 gksudo gedit /etc/modprobe.d/blacklist
5. 加入这一行 bla ...
lucene过滤相同记录
- 博客分类:
- 搜索
例如 过滤类别相同产品
Filter filter = new DuplicateFilter("类别字段");
Query query=queryParser.parse(qureyString);
Hits hits=indexSearcher.search(queryString,filter);
顺序列表
指针列表
前端编码
哈希表及最小完美哈希
Trie树及双数组Trie树
M路搜索树