- 浏览: 595155 次
- 性别:
- 来自: 北京
文章列表
New Apache project will Drill big data in near real time
Dremel-based project accepted as an Apache Incubator
August 16, 2012, 3:02 PM — Working with big data is a lot like dealing with the Heisenberg Uncertainty Principle: either you're going to have a massive amount of data on hand or y ...
验证日期的正则表达式及其注释(包含闰年验证)
- 博客分类:
- 正则
1.验证日期的正则表达式加入闰年的判断以及思路分析
进入正题之前,我们需要澄清两个概念:一,什么是合法的日期范围?对于不同的应用场景,这个问题有不同的解释。这里采纳MSDN中的约定:
DateTime 值类型表示值范 ...
DBCP1.2.2阻塞Tomcat线程BUG
- 博客分类:
- 项目架设
jconsole分析线程堆栈,jvi跟踪线程运行情况,分析得出连接问题,并且网上找到了问题的BUG
https://issues.apache.org/jira/browse/DBCP-226
http://stackoverflow.com/questions/4853732/blocking-on-dbcp-connection-pool-open-and-close-connnection-is-database-conne
http://hi.baidu.com/lettoo/item/31a512f87893fec00cd1c86c
查看系统线程堆栈JSP(模仿JSTACK)
- 博客分类:
- 性能
由于我们很多系统采用Windows服务启动方式,这样一来,对JVM的监控工具(比如Jconsole等)就无法使用了,那好吧,自己做个JVM进程内部 即便是Windows服务启动也可以查看系统堆栈的工具 吧!
<%@ page language="java" contentType="text/html; charset=UTF-8" isErrorPage="true" pageEncoding="UTF-8"%>
<%response.setStatus(HttpServle ...
1.下载
ActivePerl:地址: http://downloads.activestate.com/ActivePerl/releases/5.12.2.1202/
Awstats下载:http://sourceforge.net/projects/awstats/files/AWStats/6.95/awstats-6.95.zip
根据安装包提示安装perl,解压awstats-6.95.zip;
2.配置tomcat
在tomcat目录webapps下新建awstats项目将awstats-6.95/wwwroot目录下classess、css、 ...
Lambda Probe 是基于 Web + AJAX 的强大的免费开源工具,拥有几乎所有Tomcat Manager的功能,可以说是一个增强版本的 Tomcat Manager。除此之外,Tomcat Probe 还拥有很多让开发者和系统管理者更方便的性能。从而使得Tomcat对开发者和管理者更加透明。包括应用程序、数据源、发布、日志、线程、集群、系统信 息、状态、连接器状态这些功能。如配合 JDK 1.5 以上甚至可以实时的画出 Server 的详细内存占用状态。
下载 ZIP 文件(LambdaProbe 1.7b, BINARIES ~7Mb), Lambda Probe 的官方地 ...
两种识别Excel流类型方法
- 博客分类:
- 生活学习
private static final int _32MB = 32 * 1024 * 1024;
public static DataIterator getExcelDataIterator(InputStream is,
int sheetIndex) throws Exception {
is = new BufferedInputStream(is);
is.mark(_32MB);
try {
//文件后缀类型判断不如解析时判断Excel类型,文件后缀可以伪造,压缩后后缀名需要另解析
//使用历史版本的逻辑解析2003格式 ...
关于饿汉式单例首次初始化失败后,可以再次尝试?
- 博客分类:
- jdk
思考一个问题,以下代码是一个简单的饿汉式单例代码,显然在第一次初始化的时候会发生错误,导致单例的实例化失败,那么失败后可否继续尝试实例化呢?还是说下次使用时直接返回错误的对象或异常呢?
环境HotSpotJVM 1.6
/**
*
* @author
由ApacheCommon-BeanUtils1.8.3发现的Java的Bug
org.apache.commons.beanutils.BeanUtils.copyProperties(Object dest, Object orig) throws IllegalAccessException, InvocationTargetException
我实际工程中orig参数是一个实现了泛型接口的类
public class
simhash与重复信息识别
- 博客分类:
- 生活学习
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括:
镜像网站
内容复制
嵌入广告
计数改变
少量修改
一个简化的爬虫系统架构如下图所示: 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应,但这种方法的一个最大的缺点就是,无法将其扩展到海量数据。例如,试 ...
Simhash算法原理和网页查重应用
- 博客分类:
- 生活学习
传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的原始内容的差异程度的信息。
而Google的simhash算法产生的签名,可以用来比较原始内容的相似度时,便很想了解这种神奇的算法的原理。出人意料,这个算法并不深奥,其 ...
闰秒导致jenkins构建过程缓慢
- 博客分类:
- 项目架设
闰秒导致部分Linux服务器高CPU使用率
国际地球自转和参考坐标系统服务(IERS)在2012年6月30日午夜(北京时间7月1号7点59分59秒)增加一闰秒(即出现 7:59:60)。由于Linux kernel 2.6.29之前版本存在bug,在进行闰秒调整时可能会引起系统时钟服务ntpd进程死锁。Debian Lenny、RHEL/CentOS 5等旧发行版今天仍被广泛使用,部分供应商早已经发布了补丁。
但除了Linux服务器外,一些服务器程序也因为闰秒出现了问题,如Reddit、Mozilla、FourSquare、Yelp、LinkedIn和Gawker等网站都短 ...
highcharts是基于javascript的高交互的图表封装。相关的资料:
官网:http://www.highcharts.com/
系统监控界面:效果如下:
Tomcat Session储存解决方案
- 博客分类:
- J2EE
采用开源组件memcached-session-manager(简称msm)来实现Session分布式存储。
1. 将msm对应的jar包放到tomcat的lib目录下,采用kryo进行序列化和反序列化session中的内容,因此也需要把kryo对应的jar包也拷贝到tomcat的lib目录下。
msm的地址:http://code.google.com/p/memcached-session-manager
kryo的地址:http://code.google.com/p/kryo/
2. 配置tomcat下的/conf/context.xml ,在<Context>& ...
Eclipse安装maven插件地址
- 博客分类:
- 项目架设
m2e - http://download.eclipse.org/technology/m2e/releases/
http://download.jboss.org/jbosstools/updates/m2eclipse-wtp/