- 浏览: 209823 次
- 性别:
- 来自: 成都
最新评论
-
冯健松:
博主你好! 我看你这个博客里面说你得项目里面有多个源文件目录, ...
ant配置build.xml 指定多个classpath 编译多个src目录 -
bee1314:
这样并不能完全解决黑莓的签名问题吧,一个项目里除了调用Disp ...
避免黑莓签名 -
Eric.Yan:
学习了,但是我有一个问题,error-code是在web.xm ...
HTTP常见错误 400 401 403 404 405 406 407 412 414 500 501 502 -
于云耀:
网络爬虫 (spider) URL消重设计 URL去重设计 -
琼露露:
大虾,能不能放源码啊........
播放MP3的小应用(边写边学Android 一)
文章列表
rsync是一款很好用的备份软件,有文件比对功能。
比单纯的copy要好。
linux
我用的是rhel5.
本身自带rsync
创建/etc/rsyncd.conf
uid = root
gid = root
use chroot = no
list = false
ignore errors = yes
ignore nonreadable = yes
max connections = 50
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log ...
此文为 转载。
几个简单的步骤大幅提高Oracle性能--我优化数据库的三板斧。
数据库优化的讨论可以说是一个永恒的主题。资深的Oracle优化人员通常会要求提
出性能问题的人对数据库做一个statspack,贴出数据库配置等等。还有的人认为要抓出执行最慢的语句来进行优化。但实际情况是,提出疑问的人很可能
根本不懂执行计划,更不要说statspack了。而我认为,数据库优化,应该首先从大的方面考虑:网络、服务器硬件配置、操作系统配置、Oracle服
务器配置、数据结构组织、然后才是具体的调整。实际上网络、硬件等往往无法决定更换,应用程序一般也无法修改,因此应该着重从数据库 ...
此文为转载。
ORACLE查询性能最差的SQL脚本
SELECT * FROM
(
SELECT PARSING_USER_ID
EXECUTIONS,
SORTS,
COMMAND_TYPE,
DISK_READS,
sql_text
FROM v$sqlarea
ORDER BY disk_reads DESC
) where rownum < 10
-------------------------------------------------------- ...
分布式Ehcache
参考
这个文档包括一个Terracotta
分布cache的参考信息快速安装
与定制安装
有2种方法来安装Terracotta分布cache:快速与定制。快速安装适用于只需要一个cache的集群。定制安装适用于需要一个cache集群和其他java对象,例如sessions和定制POJOs,或者使用Terracotta应用,或者使用Terracotta整合模块(Terracotta integration Modules:TIMs)整合其他技术。
如果你使用Ehcache在一个单独的JVM上,或者使用一个集群响应,可以考虑快速安装(在这里
)。如果你是一个前沿的 ...
这个文档告诉你怎样为一个用Ehcache
cache的应用添加Terracotta 集群。
快速安装
与定制安装
有2种方法来安装Terracotta分布cache:快速与定制。快速安装适用于只需要一个cache的集群。定制安装适用于需要一个cache集群和
其他java对象,例如sessions和定制POJOs,或者使用Terracotta应用,或者使用Terracotta整合模块
(Terracotta integration Modules:TIMs)整合其他技术。
如果你使用Ehcache在一个单独的JVM上,或者使用一个集群响应,可以考虑快速安装(在这里
)。如 ...
学会解决问题
你的灯亮着吗?
> 如果你找不出三处可能出错的地方,说明你没有真正理解问题
> 不要轻易给问题下结论,也不要忽略你的第一印象
> 当别人能够解决问题时候千万不要越俎代庖
> 如果某人能够解决该问题 ...
1. New virtual machine
到virtual machine configuration的时候,选择custom。
然后下一步,guest operating system 当然选择 Linux。下一步。Location这个地方选择linux虚拟文件存放位置。下一步。Memory这个地方调整到512M(越多越好)。一直下一步。
到 virtual disk type 这个地方选择IDE。下一步。Disk capacity 这个地方设置虚拟硬盘大小,尽量大一点嘛。然后下一步。till完成。
2. 准备安装linux
设置虚拟机的CD—ROM,选择 ...
翻译了很久,其中省略了一些算法细节,如果感兴趣可以看英文原文。
转载请注明出处。
概要:
要在网络上爬行非常简单:基本的算法是:(a)取得一个网页(b)解析它提取所有的链接URLs(c)对于所有没有见过的URLs重复执行(a)-(c)。但是,网络的大小(估计有超过40亿的网页)和他们变化的频率(估计每周有7%的变化)使这个计划由一个微不足道的设计习题变成一个非常严峻的算法和系统设计挑战。实际上,光是这两个要素就意味着如果要进行及时地,完全地爬行网络,步骤(a)必须每秒钟执行大约1000次,因此,成员检测(c)必须每秒钟执行超过10000次,并有非常大的数据储存到主内存中。这个要求有一个 ...
- 2009-11-28 23:45
- 浏览 5438
- 评论(0)
Efficient URL Caching for World Wide Web Crawling
Andrei Z. Broder
IBM TJ Watson Research Center
19 Skyline Dr
Hawthorne, NY 10532
abroder@us.ibm.com
Marc Najork
Microsoft Research
1065 La Avenida
Mountain View, CA 94043
najork@microsoft.com
Janet L. Wiener
Hewlett Packard Labs
1501 Page Mill Road
Pa ...
- 2009-11-28 23:43
- 浏览 2085
- 评论(0)
转自:小型微型计算机系统 文/高克宁 柴桥子 张斌 马安香
蜘蛛程序研究现状
对任何需要抽取大规模数据信息的网络蜘蛛,都应考虑如下几个方面的问题
1.灵活性:任何运行于复杂环境的网络蜘蛛,都需要对平台软硬件资源,网络性能等具有很好的自适应能力,以及对于不同性能需求有相应的调节能力。
2.健壮性:蜘蛛程序需要很强的容错能力,主要包括:处理不规范的HTML代码以及各类异常,应对服务器端或客服端的异常行为,选择合适的传输协议等,以求将损失减到最低,并具有错误恢复机制
3.可维护和可配置性:系统需要有良好的 ...
- 2009-11-28 23:37
- 浏览 2946
- 评论(1)
转自:《计算机工程》 文/ 董瑞洪,张秋余,唐静兵,张涛
线程
线程是描述进程内的执行,正是线程负责执行包含在进程的地址空间中的代码。单个进程可能包含几个线程,它们可以同时执行进程的地址空间中的代码。每个线程有自己的一组cpu寄存器和堆。线程可以看成“一段代码的执行”也就是一系列有jvm执行的二进制指令。这里面没有对象甚至没有方法的概念。线程是有序的指令,而不是方法。
线程的数据结构,仅仅只包括执行这些指令的信息。它包含当前的运行上下文,如寄存器的内容,当前指令的在运行引擎的指令流中的位置,保存方法本地参数和变量的运行时堆栈。切换线程更有效率,时间单位是us ...
- 2009-11-28 23:36
- 浏览 2368
- 评论(0)
转自:《程序员》 文/ 洪伟铭
cache的所有位置都用双向链表链接起来,当一个位置被命中后,就将通过调整链表的指向将该位置调整到链表的头位置,新加入的内容直接放在链表的头上。这样,在进行过多次查找操作后,最近被命中过的内容就向链表的头移动,而没有被命中的内容就向链表的后面移动。当需要替换时,链表最后的位置就是最近最少被命中的位置,我们只需要将新的内容放在链表前面,淘汰链表最后的位置就是想了LRU算法。
LRU算法的实现
对象设计
对于Cache的每个位置,我们设计一个对象来储存对象的内容,并实现一个双向链表。
其中属性next和prev时双向链表的两个指针,key用于存储对象的键值, ...
- 2009-11-28 23:35
- 浏览 2839
- 评论(0)
package com.spider;
import java.util.BitSet;
public class BloomFilter {
private int defaultSize = 2 << 24;
private int basic = defaultSize - 1;
private BitSet bits;
public BloomFilter() {
bits = new BitSet(defaultSize);
}
public boolean contains(String url) {
if (u ...
- 2009-11-28 23:33
- 浏览 2868
- 评论(0)
当spider程序访问到一个网页,必须进行以下几项基本处理:抽取网页中包含的文本;抽取网页中包含的URL,并将其区分为网页中包含的文本;抽取网页中包含的URL,并将其区分为网站内URL或网站外URL。
2.2各主要功能 模块(类)设 ...
在爬虫启动工作的过程中,我们不希望同一个网页被多次下载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复 ...
- 2009-11-28 23:25
- 浏览 7835
- 评论(2)