`
shuofenglxy
  • 浏览: 194396 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
定位线上问题发现HBase 60020端口响应总是超时。但线上服务器发现该region-server均正常。   通过 hbase hbck  发现该表虽然region 都在线,但是有几个region 有 hole。通过bin/hbase hbck -fix 定位修复。     在修复region后先关的聚类运算和关联的数据接入等任务都进行了重启和确认。 最终建模结果正常。     其他命令可以参见:http://my.oschina.net/beiyou/blog/76456
Google的吴军研究员写了数学之美系列,其中有“余弦定律与新闻的分类”和”矩阵运算和文本处理中的分类问题“对自动分类、相似度、去重等相关问题原理作了介绍,并找到一些相关算法: 余弦定律与新闻的分类 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性” 一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们 ...
I-Match算法 网页去重-算法篇     网页去重-算法篇  前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. SpotSig 6. combinedI-Match算法
什么是Shingling算法 网页去重——Shingling 算法    shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下:   In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The w ...
  Hamming distance   n information theory, the Hamming distance, named after Richard Hamming, is the number of positions in two strings of equal length for which the corresponding elements are different. Put another way, it measures the number of substitutions required to change one into the other ...
      ZooKeeper监控连接方法如下: lsof –i:2181 > XXX.log  wc –l XXX.log  grep pid XXX.log > XXA.log wc –l XXA.log即可获取某个进程关于2181端口的连接。         此法可以扩展到其他端口监听。            如果lsof 命令不可用,则可以通过netstat –nap命令来替代。
from:  http://kb.cnblogs.com/page/135656/      基于用户投票的排名算法(一):Delicious和Hacker News  基于用户投票的排名算法(二):Reddit  基于用户投票的排名算法(三):Stack Overflow  基于用户投票的排名算法(四):牛顿冷却定律  基于用户投票的排名算法(五):威尔逊区间  基于用户投票的排名算法(六):贝叶斯平均   
  WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception  for block blk_7400268305159146046_1226436java.net.SocketTimeoutException: 66000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/ ip:38201 remote ...

JVM Crash分析

    博客分类:
  • JVM
JVM Crash一般会生成core.pid文件和hs_err_pidXXXX.log。 打开hs_err_pidXXXX.log文件 一般有如下内容:     A fatal error has been detected by the Java Runtime Environment: # #  SIGBUS (0x7) at pc=0x00007fb7006c6f31, pid=8864, tid=140421610395392 # # JRE version: 6.0_20-b02 # Java VM: Java HotSpot(TM) 64-Bit Server ...
  from:http://kb.cnblogs.com/page/76804/ 在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了CRISP-DM Special Interest Group(简称为SIG)。   大概在1999年,SIG(CRISP-DM Special Interest Group)组 ...
  今天压系统,出现一个java.lang.OutOfMemoryError: unable to create new native thread问题,整个linux系统都不可用了. 通过top -H命令看到线程数大于3万。 通过ulimit -s 看到堆栈大小100K. ps -mp <pid>定位到问题进程。   然后jstack pid 查看进程相关信息,定位到代码 ,fix。     总结: 遇到os莫名问题,首先要定位问题。从大到小缩小问题范围。以最稳妥的方式解决问题。
转载请注名出处和作者:franciscolv.  http://www.cnblogs.com/franciscolv/archive/2012/05/05/2485348.html   最近要在产品中改进对象的序列化了。以前用的是java默认序列化实现功能,在产品上线之前要对关键的对象进行序列化/反序列化优化,以期改善存储效率。这里选取了Protocol buffer作为最终的方案,原因主要有以下几个方面: 1 java默认序列化效率较低。 2 apache的thrift方案并无明显优势,但是使用成本较高,安装等较为麻烦。 3 虽然PB不支持map,但是我们的应用中map用 ...
java.lang.OutOfMemoryError: GC overhead limit exceeded   发生在GC占用大量时间为释放很小空间的时候发生的,是一种保护机制。解决方案是,关闭该功能,使用—— -XX:-UseGCOverheadLimit   java.lang.OutOfMemoryError: java heap space   配置增大jvm内存
http://www.blogjava.net/sxyx2008/archive/2010/07/14/326028.html   http://www.cnblogs.com/ITEagle/archive/2010/04/23/1718365.html

2011个人总结

  今天是2011的最后一天,即将迈入2012。回顾这一年,有成功,有失败,有老友相聚,有朋友相离,一天天在成长,一天天在成熟,很多时候不能随性了,真是痛并生活着。简单的总结一下2011吧。          过年的时候并没 ...
Global site tag (gtag.js) - Google Analytics