`
twtbgn
  • 浏览: 45179 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
 Hadoop被设计用来处理海量数据,这种数据可以是结构化的,半结构化的,甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中,也可能存放在DB中)。它处理数据的核心就是map-reduce模型,但是,无论是map还是reduce,它们的输入输出数据都是key-value对的形式,这种key-value对的形式我们可以看做是结构化的数据。同时,对于reduce的输入,当然就是map的输出,而reduce、map的输出又直接可以在map和reduce处理函数中定义,那么这就只剩下map的输入了,也就是说,Hadoop如何把输入文件包装成key-value对的形式交给map来处理,同时 ...
crawl:one-step crawler for intranets  一站式的爬取。 也就是将 inject,generate,fetch,parse,updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。 crawl类在 org.apache.nutch.crawl.Crawl 先看main方法: public static void main(String args[]) throws Exception { //读取配置文件,包括nutch-default.xml,nutch-site.xml Configuration conf ...

nutch 配置文件

nutch中主要的配置文件是nutch-default.xml.  nutch启动的时候会读取这个文件,里面基本包含了nutch所有的相关配置,包括不同的plugin在哪些文件中进行定义等 在nutch-default.xml中有plugin.includes的属性,在这里面加入你要使用的plugin id,这些pulgin id定义在其他的文件中,比如parse的plugin定义在parse-plugins.xml中

hive中udf例子

    博客分类:
  • hive
hive中自带了一下函数,但是平常开发中可能需要专门开发一下函数来应对特定的需求,下面写一个udf的例子。 udf是对输入的每行的一列或多个列的值进行计算,并返回值。 导入hive-exec-0.10.0.jar 继承UDF类,重写evaluate方法。 下面实现一个类似oracle中row_number() 的类 /** * 实现类似oracle中row_number()函数的功能 * oracle: select row_number() over (partition by col1 order by col2) from table; * hive: sel ...
在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。 安装前准备: eclipse svn插件 eclipse ivy插件 1.  打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next 2.  创 ...
1、下载并解压eclipse(集成开发环境) 下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers2、安装Subclipse插件(SVN客户端) 插件地址:http://subclipse.tigris.org/update_1.8.x,3、安装IvyDE插件(下载依赖Jar) 插件地址:http://www.apache.org/dist/ant/ivyde/updatesite/4、签出代码 File > New > Project > SVN > 从SVN 检出项目 ...
在hadoop中有时候会需要一个组中的多个用户都能够有权限操作,比如nutch和hadoop的结合中,一个nutch用户负责爬取,hadoop用户负责维护文件系统,那这时这2个用户都要有权限来操作hadoop的文件系统了,可以如下方法: 方法一: bin/hadoop fs -chmod -R 774 /user 将改变/user下面的所有文件为同组用户读写执行 方法二: 修改hdfs-site.xml <property>   <name>dfs.permissions</name>     <value>false</value> ...
Global site tag (gtag.js) - Google Analytics