- 浏览: 143960 次
- 性别:
- 来自: 北京
最新评论
-
u010347372:
whxiyi100829 写道使用import pyhdfs没 ...
使用python访问hdfs——pyhdfs库的编译&安装 -
lc87624:
luxury_zh 写道最后一点不明白,为什么每次还要对队列进 ...
简单地用Java解决topN问题 -
luxury_zh:
最后一点不明白,为什么每次还要对队列进行排序,循环N次,调用p ...
简单地用Java解决topN问题 -
kjmmlzq19851226:
楼主这种探索精神值得学习
Java中的main线程是不是最后一个退出的线程 -
qdj6679:
我想请问一下楼主,如果不遵守robot.txt协议。那势必会找 ...
nutch杂记
文章列表
个人blog原文地址:http://www.gemoji.me/when_main_thread_end/
之所以写这篇文章,是因为上次被人问到这么一个问题:“在main函数里启动一个定时器,是不是main函数执行完整个程序就退出了,包括那个定时器”。多说无益,直接写个程序测试一下就知道了。
public class MainThreadTest {
public static void main(String[] args) {
new Timer().schedule(new TimerTask(){
@Override ...
个人blog原文地址:http://www.gemoji.me/java_top_n/
距离上次写博客有一个月了, 反省下。今天先写篇简单点的,算是热热身吧。
写在前面
我想几乎每个找过工作的程序员都曾经在面试的时候遇到过如何求topN的问题,而且多数都能不假思索的回答:求topN大用小顶堆,求topN小用大顶堆(觉得反了的同学请去面壁。。。),但是应该也有一部分同学和我之前一样,一直只是把它作为一道面试题而已。
思路
说来不怕丢人,我真的是最近才遇到需要求top N大的场景,囧。。。当时的第一反应是要自己实现一个固定大小的二叉堆,因为印象中常用的Java工具类里并没有现成的实现,但是从头 ...
本译文已投稿至ImportNew:http://www.importnew.com/2466.html
原文地址:http://www.cubrid.org/blog/dev-platform/understanding-jdbc-internals-and-timeout-configuration/
恰当的JDBC超时设置能够有效地减少服务失效的时间。本文将对数据库的各种超时设置及其设置方法做介绍。
真实案例:应用服务器在遭到DDos攻击后无法响应
在遭到DDos攻击后,整个服务都垮掉了。由于第四层交换机不堪重负,网络变得无法连接,从而导致业务系统也无法正常运转。安全组很快屏蔽了所有 ...
使用数据库连接池时,免不了会遇到断网、数据库挂掉等异常状况,当网络或数据库恢复时,若无法恢复连接池中的连接,那必然会是一场灾难。
关于dbcp的自动重连配置,网上相关的资料也不少,通过以下资料,并对照官方文档中的参数说明,大致能了解各项配置的含义,我就不冗诉了,本文的目的主要是对问题排查的经过做个简单的记录。
参考资料:
解读dbcp自动重连那些事
官方文档
测试环境:
dbcp版本——1.4
数据库——postgresSQL 9.10(简称pg)
本地(以下称为client)操作系统及数据库服务器(以下称为server)操作系统均为linux
server位于内网环境,client需要 ...
假设有1000万条数据,通过seq命令将其拆为1000份,每份10000条,通过xargs命令并发起5个进程执行。
seq 0 9999 | xargs -I{} -P5 echo 'update xxx set xxx=xxx where id >=1000*{} and id <1000*({}+1)'
postgresql里有很多好用的数据类型和扩展类型,例如ltree,例如period,但在通过jdbc访问pg时,使用这些特别的数据类型往往会遇到一些小麻烦。
以自身遇到的问题为例,在使用PreparedStatement构造sql时,period类型的字段可以通过下面的方法使用:
Connection conn = null;
PreparedStatement pstmt = null;
ResultSet rs = null;
try {
conn = DBConnection.getConnection();
StringBuilder sb = new Strin ...
听完公司《JVM应用调试相关脚本》的分享之后,又有同事在邮件里分享了另外一个可以生成html的分析工具叫:jhat (虚拟机堆转快照分析工具)。纯技术的东西,没有啥保密的,我就直接贴过来了,下面是邮件原文,图片弄过来 ...
有一个需求是要对拼接出来的飞行线路列表进行排序,自然地用到Collections.sort方法,然后实现自己的Comparator。
排序需要考虑多种因素,包括拼接出的线路的段数、线路经过的国家数等,其中有一个排序条件是:当线路的飞行时 ...
首先可以参考这两篇文档:
http://code.google.com/p/libpyhdfs/source/browse/trunk/INSTALL
http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/04/2036665.html
然后补充两个细节:
1. 我在执行:
apt-get install libhdfs0-dev
的时候提示找不到包,改成:
apt-get install libhdf4-dev
之后安装成功。
2. 文档一中提到:
引用You can copy your libhdfs.so into `lib' dir ...
1. 安装xclip:
sudo apt-get install xclip
2. 例如将文件file的内容copy至剪贴板,用于应用程序间拷贝
cat file | xclip -selection clipboard
详情见:http://stackoverflow.com/questions/5130968/how-can-i-copy-the-output-of-a-command-directly-into-my-clipboard
1. 如何绕过目标站点的robots.txt限制
多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。
nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。
相关代码位于(nutch版本1.5.1 ...
Hi ALL
无线有一张表,需要对其中一个token字段按照一个规则除重
表结构如下:
+---------------+--------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+---------------+--------------+------+-----+---------+----------------+
| sysid | bigint( ...
问题描述
度假后台在更新完DB的数据后会通知dumper进行一次全量dump,但不时会遇到dumper没有收到通知的情况。通过查看度假后台的日志,发现在发送全量dump通知的时候抛出了"dead lock detached"的错误,由于后台代码此处并 ...
最近刚开始看《深入理解JAVA虚拟机》这本书。第一章的实践是自己手动编译openjdk7,但书上的步骤都是基于windows的,于是在网上搜了一下linux下编译openjdk的资料:
http://blog.csdn.net/kindazrael/article/details/7266314
http://guoh.org/lifelog/2011/05/compile-openjdk-by-yourself/
这辆篇文章都说的比较详细。其实,最好的文档是openjdk源码包中的README-builds.html,网上的资料基本是对其的翻译+精简。
资料已经那么全了,我就不重复了,主要是 ...
原来正则表达式中的"."代表的是除换行以外的任意字符,如果要真正代表任意字符,需要把换行符也加进去,但是经过测试"[.\\n]"不生效,可以使用"\\s\\S"代表,即所有空字符+所有非空字符。
注:为了适用于java程序,上述表达式已把斜杠替换成双斜杠。
今天还发现一个问题,正则表达式的贪婪型和勉强型的不同。
在匹配字符串"[tab]one[tab][tab]two[tab]"时,若使用贪婪型的表达式"\\[tab\\](.*)\\[tab\\]",将只能匹配出一个tab,其group(1) ...