阅读更多

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志下载地址Nutch官网

 

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

 

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

 

在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

 

大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。

 

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

 

NUTCH/HADOOP视频教程

9
0
评论 共 4 条 请登录后发表评论
4 楼 newmanandlady 2014-05-19 13:48
不明觉厉  微明觉厉
3 楼 高军威 2014-03-19 12:44
向牛人致敬
2 楼 mayufenga1 2014-03-19 09:11
微明觉厉。。。。
1 楼 caixiexin 2014-03-19 08:28
不明觉厉。。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java的输入方法

    输入方法

  • Java中输入字符和字符串

    next()方法相当于取出字符串进行输入,charAt(0)方法则是将该字符串的第一个字符进行输入,而我们字符本身也是也只有一个,因此它相当于长度为1的字符串,所以charAt(0)则是将字符串第一个字符输入,也就是实现了输入字符的操作。谈到字符串的输入,则分为带空格的字符串的输入和不带空格的字符串的输入。.首先,在Java中输入时,我们要先导入Scanner这个类。接下来我们在main中创建一个Scanner这个类的对象。在java中,字符都是当作字符串来输入的。这种则是直接将字符看做字符串来输入。

  • java中的输入输出

    格式化输出. println输出的内容带换行,print不带换行.scanner. next() 读一行数据,如果上面输入敲了回车,它将回车读入,此时输入结束。scanner, nextline() 读入数据,当读到空格时便结束。f 定点浮点数 (%f,100f) 100.0000。a 十六制点数 ("%a",100) 0x1.9p6。% 百分号 ("%.2f%%",217f) 0.29%x 十六进制整数 ("%x",100) 64。

  • Java 输入方法 数组 String类

    输入方法 数组 String类

  • java string输入_怎么让Java获取用户输入的字符串

    从控制台动态输入数据,对数据进行各种各样的处理,然后将数据输出是很常见的操作。现在对数据的输入方式进行系统的介绍:Scanner类的调用相关方法:hasNext()判断扫描器中当前扫描位置后是否还存在下一段。hasNextLine()如果在此扫描器的输入中存在另一行,则返回 true。next()查找并返回来自此扫描器的下一个完整标记。nextLine()此扫描器执行当前行,并返回跳过的输入信息。...

  • java怎么键盘录入字符串

    java怎么键盘录入字符串 如图所示: 来看一下每句代码的意思: 先写上:import java.util.Scanner //导入 java.util 包下的 Scanner 类,导入后才能使用它 接着:Scanner.sc = new Scanner(System.in); //new是指创建了一个scanner类,在创建Scanner类的对象时要用System.in作为它的参数,可以将scanner看做System.in对象的支持者。System.in取得用户输入的内容后,交给Scanner来作一些

  • java如何输入数,字符,字符串

    一,利用 Scanner 实现从键盘读入integer或float 型数据 import java.util.*; public class test { public static void main(String args[]) { Scanner cin=new Scanner(System.in); //使用Scanner类定义对象 ...

  • java简单的输入语句(字符串)

    输入代码: import java.io.*;//使用BufferedReader用前需要引入import java.io.Reader public class string { public static void main(String[] args)throws IOException { while(true) {

  • java-字符串的输入输出处理

    java-字符串的输入输出处理

  • Java代码编写-对输入的字符串进行处理

    唉,今天面试的时候面试官问我的这道题目,脑子当时太笨了,没答出来,这里还是复盘下,写个博客记录下。b)把数字与字母之间用下划线字符 (_)分开,使得更清晰。要求程序对用户输入的字符串进行处理。c)把单词中间有多个空格的调整为1个空格。a)把每个单词的首字母变为大写。

  • java中如何输入字符

    char m = input.next().charAt(0); 下面是ACM中的模拟计算器的题目,以此作为示例: import java.util.*; public class Main { public static void main(String[] args){ Scanner in = new Scanner(System.in); int a = in.nextInt(); i...

  • Java 字符终端上获取输入三种方式

    在Java 字符终端上获取输入有三种方式: 1、java.lang.System.in (目前JDK版本均支持) 2、java.util.Scanner (JDK版本>=1.5) 3、java.io.Console(JDK版本>=1.6),特色:能不回显密码字符 参考: 这里记录Java中从控制台读入信息的几种方式 (1)JDK 1.4(JD

  • Java基础知识之输入,字符串

    1.字符串常量不能跨行,应将其分为几个单独的字串,再用连接符(+)将他们组合起来 如:System.out.println(“Introduction to Java Programming”+          “byY”);   2. Java不直接支持控制台输入,但可以使用Scanner类创建它的对象,以读取来自System.in的输入 如:Scanner input = newS

  • Java基础学习之用System.out.println()输出中文字符串乱码问题

    问题描述: 在学习“java基本数据类型”相关知识点过程中,使用不同文本编辑器编写java源代码文件在cmd控制台中编译和运行过程中多次出现乱码情况。  电脑操作系统:win10 企业版 文本编辑器:Notepad(Windows自带记事本)、EditPlus、Notepad++、Sublime Text3 执行环境:Windows控制台(cmd) 1、字符编码 关于字符编码的产生...

  • java输入字符串并将每个字符输出

    import java.util.Scanner; public class Main{ public static void main(String[] args){ int i,len; String str; Scanner in = new Scanner(System.in); str = in.next(); len = str.length(); //求出长度

  • java基础语法练习--输入一串字符统计各字符数目

    package test; import java.util.Scanner; /*字符统计*/ class aa{ public static void main(String [] args){ int char_count= 0;//字母字符 int char_digit =0;//数字字符 int char_spec =0;//特殊字符 System.out.println(

  • java中如何输入一个字符(用字符串转换)

    java中输入单个字符

  • java输入对话框_Java语言程序设计(五)从对话框获取输入及String类型

    1.String类型char类型只能表示一个字符,为了表示一串字符,使用成为String(字符串)的数据类型,例如下述代码将消息声明为一个字符串。String message = "Welcome to Java";String实际上与System类,JOptionPane类和Scanner类一样,都是一个Java库中预定义的类。我们在操作时,可以进行两个字符串的连接,如果操作数之一是字符串,加号...

Global site tag (gtag.js) - Google Analytics