`
zxh116116
  • 浏览: 11348 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表

Apache+Tomcat集群

    博客分类:
  • java
1.jdk安装略 2.下载apache,传送门http://download.csdn.net/detail/u013483509/6850865 3.配置Apache 将下载下来的Apache解压,修改httpd.conf配置文件 37行: ServerRoot "apache目录" (e.g. 'c:\apache24' 改为 d:\apache) 217行:ServerName 服务器名称 (e.g demo.app.com or 127.0.0.1)去掉# 241行: DocumentRoot 修改网站根目录地址 242行:<Directory &quo ...
转自http://www.google.com.hk/ggblog/googlechinablog/2006/05/blog-post_3044.html [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。] 世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出 ...
转自http://www.google.com.hk/ggblog/googlechinablog/2006/08/blog-post_8115.html 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接存储网址,既费内存空间,又浪费查找时间。现在的网址一般都较长,比如,如果在 G ...
转自http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速 ...

lucene3.4文档得分

public static void main(String[] args) throws Exception {      Directory dir =new RAMDirectory();         IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_34, new StandardAnalyzer(Version.LUCENE_34));     IndexWriter writer = new IndexWriter(dir,conf);                    Docum ...

virtualbox克隆

D:\Program Files\Sun\VirtualBox>VBoxManage.exe clonevdi "D:\Program Files\ubuntu \ubuntu.vdi" "D:\Program Files\ubuntu1\ubuntu1.vdi" VirtualBox Command Line Management Interface Version 3.0.12 (C) 2005-2009 Sun Microsystems, Inc. All rights reserved. 0%...10%...20%...30%...40% ...

ubuntu屏蔽ipv6

来自http://wiki.ubuntu.org.cn/index.php?title=%E5%A6%82%E4%BD%95%E7%A6%81%E7%94%A8IPv6&variant=zh-tw 禁用 IPv6 for ubuntu 1. 在终端下输入      gksudo gedit /etc/modprobe.d/aliases   2. 注释掉这一行      alias net-pf-10 ipv6   3. 存盘   4. 在终端下输入      gksudo gedit /etc/modprobe.d/blacklist   5. 加入这一行        bla ...
例如 过滤类别相同产品  Filter filter = new DuplicateFilter("类别字段");      Query query=queryParser.parse(qureyString);      Hits hits=indexSearcher.search(queryString,filter);
定长编码 差值编码 无参数及有参数变长编码 跳跃表

词典的存储方式

顺序列表 指针列表 前端编码 哈希表及最小完美哈希 Trie树及双数组Trie树 M路搜索树
以下内容来自达内技术论坛(www.tarena.com.cn) 1、工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如 ...
Global site tag (gtag.js) - Google Analytics