文章列表
hive建表及导入数据
- 博客分类:
- hadoop
1 新建一个表
hive -e "create external table if not exists uid_vid_test(uid string, vid string) row format delimited fields terminated by '\t'"
注意后面的\t,表示数据以\t分割
2 从本地导入数据
执行hive -e "load data local inpath 'uidvid' into table uiv_vid_test" 导入到uid_vid_test表中
3 查看数据
hive -e ...
k紧邻算法用来进行分类。分类方法为:对每个待分类数据,计算该数据与每个训练数据之间的距离,对数据进行排序后,找出前k个距离最近的训练样例。这k个训练样例所属的分类中,最多的分类即判定为该数据的分类。距离计算可以使用欧氏距离,并且要把所有数据归一化。
可以很容易的看出,该方法有个缺点,就是对每一个查询数据,都要和所有的训练数据对比一遍,效率比较低下。另外,想要找到哪个属性对分类的影响最大也比较困难。
《机器学习实战》这本书上有两个不错的实例,约会网站匹配和手写识别。
一直想要学习python,之前自己看过一段时间,但是苦于没有项目可以实践,过段时间久忘了。想了解下机器学习,看到有本书,叫做<机器学习实战>,书中算法全部用python实现。这不正好可以拿python练练手吗。
1 安装python
可以选择安装更新版本的3.x,但是为了在学习中少走弯路,决定使用和书中一样的2.6版本。
下载地址为http://www.python.org/download/releases/2.6.6/
安装x86版本即可,如果安装x86-64版本,以后安装numpy可能会不成功。
2 安装numpy
机器学习肯定要用到线性代数,python中用的 ...
这块知识不太牢固,一提起来就有点怵。今天抽空整理下。
当做表的关联时,有时我们只需要完全符合条件的记录,这就需要用到内连接。有时需要把其中一个表中的所有记录找出来,这就需要用到外连接。关联方法一般是select * from a (left/right/inner) join b on a.xx = b.xx
1 内连接
形式为:select * from a (inner) join b on a.xx = b.xx
只返回满足a.xx=b.xx的记录。默认的join就是内连接。
2 外连接
外连接包括左外连接和右外连接。
左外连接:select * from a left ...