阅读更多

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志下载地址Nutch官网

 

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

 

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

 

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

 

大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

 

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

 

NUTCH/HADOOP视频教程

9
0
评论 共 4 条 请登录后发表评论
4 楼 newmanandlady 2014-05-19 13:48
不明觉厉  微明觉厉
3 楼 高军威 2014-03-19 12:44
向牛人致敬
2 楼 mayufenga1 2014-03-19 09:11
微明觉厉。。。。
1 楼 caixiexin 2014-03-19 08:28
不明觉厉。。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java 控制台输入字符串_Java控制台输入字符串及字符串比较

    需求描述:茵茵很喜欢研究车牌号码,从车牌号码上可以看出号码注册的早晚,据研究发现,车牌号码是按字典序发放的,现在她收集了很多车牌号码,请你设计程序帮她判断注册较早的号码。车牌号码由5个字母或数字组成。首先解决输入的问题:先输入一个数字,表示输入的字符串个数,我们接下来再用字符串数组接受输入。Scanner scanner=new Scanner(System.in);Scanner是JDK提供的j...

  • java的输入方法

    输入方法

  • Java中输入字符和字符串

    next()方法相当于取出字符串进行输入,charAt(0)方法则是将该字符串的第一个字符进行输入,而我们字符本身也是也只有一个,因此它相当于长度为1的字符串,所以charAt(0)则是将字符串第一个字符输入,也就是实现了输入字符的操作。谈到字符串的输入,则分为带空格的字符串的输入和不带空格的字符串的输入。.首先,在Java中输入时,我们要先导入Scanner这个类。接下来我们在main中创建一个Scanner这个类的对象。在java中,字符都是当作字符串来输入的。这种则是直接将字符看做字符串来输入。

  • Java 输入方法 数组 String类

    输入方法 数组 String类

  • java string输入_怎么让Java获取用户输入的字符串

    从控制台动态输入数据,对数据进行各种各样的处理,然后将数据输出是很常见的操作。现在对数据的输入方式进行系统的介绍:Scanner类的调用相关方法:hasNext()判断扫描器中当前扫描位置后是否还存在下一段。hasNextLine()如果在此扫描器的输入中存在另一行,则返回 true。next()查找并返回来自此扫描器的下一个完整标记。nextLine()此扫描器执行当前行,并返回跳过的输入信息。...

  • java怎么键盘录入字符串

    java怎么键盘录入字符串 如图所示: 来看一下每句代码的意思: 先写上:import java.util.Scanner //导入 java.util 包下的 Scanner 类,导入后才能使用它 接着:Scanner.sc = new Scanner(System.in); //new是指创建了一个scanner类,在创建Scanner类的对象时要用System.in作为它的参数,可以将scanner看做System.in对象的支持者。System.in取得用户输入的内容后,交给Scanner来作一些

  • java如何输入数,字符,字符串

    一,利用 Scanner 实现从键盘读入integer或float 型数据 import java.util.*; public class test { public static void main(String args[]) { Scanner cin=new Scanner(System.in); //使用Scanner类定义对象 ...

  • java简单的输入语句(字符串)

    输入代码: import java.io.*;//使用BufferedReader用前需要引入import java.io.Reader public class string { public static void main(String[] args)throws IOException { while(true) {

  • java-字符串的输入输出处理

    java-字符串的输入输出处理

  • java中如何输入一个字符(用字符串转换)

    java中输入单个字符

  • java读取输入字符串的操作

    读取输入字符串的方法: 通过Scanner类读取字符串的方法next()和nextLine() import java.util.*; public class Main{ public static void main(String []args){ Scanner scanner = new Scanner(System.in); String a =scanner.next();/...

  • Java代码编写-对输入的字符串进行处理

    唉,今天面试的时候面试官问我的这道题目,脑子当时太笨了,没答出来,这里还是复盘下,写个博客记录下。b)把数字与字母之间用下划线字符 (_)分开,使得更清晰。要求程序对用户输入的字符串进行处理。c)把单词中间有多个空格的调整为1个空格。a)把每个单词的首字母变为大写。

  • java中如何输入字符

    char m = input.next().charAt(0); 下面是ACM中的模拟计算器的题目,以此作为示例: import java.util.*; public class Main { public static void main(String[] args){ Scanner in = new Scanner(System.in); int a = in.nextInt(); i...

  • Java基础知识之输入,字符串

    1.字符串常量不能跨行,应将其分为几个单独的字串,再用连接符(+)将他们组合起来 如:System.out.println(“Introduction to Java Programming”+          “byY”);   2. Java不直接支持控制台输入,但可以使用Scanner类创建它的对象,以读取来自System.in的输入 如:Scanner input = newS

  • java输入字符串并将每个字符输出

    import java.util.Scanner; public class Main{ public static void main(String[] args){ int i,len; String str; Scanner in = new Scanner(System.in); str = in.next(); len = str.length(); //求出长度

  • Java在控制台输入字符串或数字的方法

    偶然要用到这个,发现忘记了,在这里记录一下 Scanner scanner = new Scanner(System.in); String str = scanner.nextLine(); //获取输入的字符串,仅限一行 int n = scanner.nextInt(); //只读取数字 byte b = scanner.nextByte(); //将你输入的东西给你转换...

Global site tag (gtag.js) - Google Analytics