- 浏览: 227075 次
- 性别:
- 来自: 北京
-
最新评论
-
itway:
很棒的小demo
nodejs 之模拟登录 -
zgc123123:
阿斯达是事实上事实上事实上
利用java反射机制,实现对类的私有变量和私有方法的访问 -
Jabbar2011:
...
httpwatch的在IE8版本的开启 -
铁拳无敌孙中山:
试了下新浪微博的登录, 没有成功啊登录后重定向public S ...
腾讯,新浪微博模拟登录爬取数据 程序 ,无偿奉献了(java版本) -
sunshinan2013:
请问腾讯微博 p_skey这个cookie怎么取?
腾讯,新浪微博模拟登录爬取数据 程序 ,无偿奉献了(java版本)
文章列表
最近在做一个程序的 时候遇到了这样的情况,在 主类中需要执行一些操作,同时主类会启动几个线程,在这些线程执行前和执行后都会一系列的操作。因此就用到了CountDownLatch类。CountDownLatch是一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。
下边是一个例子:
import mulithread.CountDownLatch;
class Driver {
public static void main(String []args) throws InterruptedException {
CountDown ...
有这样一道笔试题目,请问str1,str2,str3,str4的执行效率如何排序的?
String str1="1"+"2"+"3"+"4"+"5"+"6"+"7"+"8"+"9"+"10";
String str2=""; for(int i=1;i<=10;i++){ str2+=i; }
StringBuffer str3 = new ...
基于用户投票的排名算法(一):Delicious和Hacker News
互联网的出现,意味着"信息大爆炸"。
用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。
各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。
下面,我将整理和分析一些基于用户投票的排名算法,打算分成四个部分连载,今天是第一篇。
一、Delic ...
SSH原理与运用(一):远程登录
SSH是每一台Linux电脑的标准配置。
随着Linux设备从电脑逐渐扩展到手机、外设和家用电器,SSH的使用范围也越来越广。不仅程序员离不开它,很多普通用户也每天使用。
SSH具备多种功能,可 ...
最近做一个项目的时候,老是报com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte UTF-8 sequence.异常,经过仔细排查发现,是xml解析的时候出现了问题。
情况是这样:A用ansi编码xml文件,xml中不包含<?xml version="1.0" encoding="UTF-8"?>,缺省情况解析也是按照utf-8来解析。然后发送给B,而B在解析xml的时候,如果xml文件中没有中文就 ...
转自http://www.blogjava.net/zhenandaci/archive/2008/12/24/248014.html
Java中的字符集编码入门(一)Unicode与UCS的历史恩怨
ASCII及相关标准地球人都知道ASCII就是美国标准信息交换码的缩写,也知道ASCII规定用7位二进制数字来表示英文字符,AS ...
最近更新了下IE8,用HTTPWATCH的时候居然不能用了,如图所示a:
这个问题在IE8以下的版本中不会出现,后来发现原来是IE8在对插件进行管理时,不会自动加载这个插件,需要自己去手动加载它,操作步骤为 点击 工具->管理加载项。如下图b所示:
点击启动之后,就可以正常使用了。
Hive的UDF,其实很类似Mysql之类的自定义函数
不过它需要用java来编写,而不是用传统的SQL来完成
实现一个UDF的步骤如下:
实现一个Java Class,继承自UDF
打成jar包,并加入到Hive的ClassPath中
生成自定义函数,执行select
删除刚才创建的临时函数
下面这个UDF,是我给hive的array增加的一个函数
用来判断array中是否包含某个值,hive的标准函数中并没有此功能函数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20 ...
决策树ID3算法详解
- 博客分类:
- 文本分析 机器学习
1决策树学习是以实例为基础的归纳学习。
决策树学习采用的是自顶向下的递归方法,决策树的每一层节点依照某一属性向下分子节点,待分类的实例在每一节点处与该节点相关的属性进行比较,根据不同的比较结果向响应的子节点扩展,这一过程在到达决策树的叶节点时结束,此时得到结论。
决策树学习最大的优点是它可以自学习。
2 决策树是描述分类的一种数据结构从上端的根节点开始,各种分类原则被引用进来,并以 这些分类原则见根节点的数据集划分为子集,这一划分过程直到某种约束条件满足而结束。
3 构造一棵决策树要解决的4个问题;
(1)收集待分类的数据,这些数据的所有属性应该是完全标注的。
The 20 Newsgroups数据集合收集了大约20,000 个新闻群组的文档,它们被划分成为大约20个新闻组。在机器学习领域,这个数据集合被广泛的应用与分类和聚类测试数据集。下面是介绍如何利用这个数据集合来进行分类。
(本文是对https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的翻译)
准备工作:
(1)首先确保安装了hadoop和mahout,关于hadoop和mahout的安装与配置,可以参考hadoop.apache.org 和mahout.apache.org中的guide部分,可以让你快 ...
本文主要讨论hbase中如何将集群环境转换为单机环境。如果你认为把不用的regionserver停止就可以的话,你就错了,这时整个hbase会不段的报错。下面就以不破坏正常的hdfs为前提,将原有hbase砍掉重新使用。
假设现在你的hadoop和hbase已经在运行中,并且hbase有多个regionserver:
1 停止hbase
stop-hbase.sh
使用jps命令查看,这时应该没有HMaster进程,而只有hadoop在运行就OK;
2 修改conf/hbase.site.xml
<property> <name>hbase ...
1.LOG4J的配置:采用log4j.properties文件
log4j.rootCategory=warn,A1log4j.appender.A1=org.apache.log4j.DailyRollingFileAppender
#log4j.appender.A1=org.apache.log4j.RollingFileAppenderlog4j.appender.A1.File= 日志文件的路径
#log4j.appender.A1.MaxFileSize=1024KB#log4j.appender.A1.MaxBackupIndex=1log4j.appender.A1.la ...
在用httpclient做网页提取的过程中,通过抓包工具发现了 头部中会有 Accept-Encoding: gzip, deflate字段,本文不介绍该字段具体是干什么的,只是告诉你在请求的时候,如果头部有了该字段,则服务器会将内容reponse的内容进行压缩用gzip或者deflate算法,然后reponse给用户。目前我看到的仅仅有gzip算法被用到,然后返回给用户的数据也是压缩后的数据,这样往往可以减轻服务器的负担,同时也减少了网络传输。以下用浏览器在访问百度主页是抓包的例子:
GET / HTTP/1.1Accept: image/gif, image/jpeg, image/pjp ...
引言团队中使用HBase的项目多了起来,对于业务人员而言,通常并不需要从头搭建、维护一套HBase的集群环境,对于其架构细节也不一定要深刻理解(交由HBase集群维护团队负责),迫切需要的是快速理解基本技术来解决业务问题。最近在XX项目轮岗过程中,尝试着从业务人员视角去看HBase,将一些过程记录下来,期望对快速了解HBase、掌握相关技术来开展工作的业务人员有点帮助。我觉得作为一个初次接触HBase的业务开发测试人员,他需要迫切掌握的至少包含以下几点:
深入理解HTable,掌握如何结合业务设计高性能的HTable
掌握与HBase的交互,反正是离不开数据的增删改查,通过HBase She ...
引言HBase提供了丰富的访问接口。• HBase Shell• Java clietn API• Jython、Groovy DSL、Scala• REST• Thrift(Ruby、Python、Perl、C++…)• MapReduce• Hive/Pig其中HBase Shell是常用的便捷方式,我们将结合本系列上一篇文章的理论分析来实践一把,依然采用blog表示例。
首先你需要一个HBase的环境,如果需要自己搭建可以参考http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoqu ...