阅读更多
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫

开课时间:2013年9月17日 19:00 - 21:30

现场或线上参课:

  • 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与)
  • 线上直播(免费):邮件报名后将即时提供线上参课网址
现场或线上参课:http://www.osforce.cn/uncategorized/1703.html

报名:

  • 发邮件到 osf@osforce.cn ,邮件标题:开源力量公开课第30期, 邮件正文:在线或现场+姓名+公司+职位+联系电话
  • 邮件报名后,我们将即时回复线上参课网址
  • 若未收到不要前往现场的邮件,默认表示通过
  • 不接受未报名空降,拒绝放鸽子
课程背景:

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。

课程大纲:

  • Nutch是什么?
  • Nutch的设计初衷?
  • 为什么要学习Nutch?
  • Nutch的设计目标
  • Nutch的发展历程
  • Nutch的整体架构
  • Nutch 3大分支版本
  • Nutch的应用领域
  • Nutch的使用
讲师介绍:

杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。

时间安排:

  • 18:30 - 19:00:自我介绍
  • 19:00 - 21:00:讲课
  • 21:00 - 21:30:自由交流
开源力量公开课,每周二晚线上线下同时开课,让我们一起向IT技术大牛们学习!

更多信息:http://www.osforce.cn
  • 大小: 92.1 KB
来自: 开源力量
6
1
评论 共 8 条 请登录后发表评论
7 楼 yangshangchuan 2013-09-18 05:10
课件可到我的博客下载,地址:http://yangshangchuan.iteye.com/blog/1941498
6 楼 啦登2010 2013-09-16 15:14
顶一个。。。。。。。。。。。。。。。。。。
5 楼 yangshangchuan 2013-09-16 01:23
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。
4 楼 yangshangchuan 2013-09-14 17:45
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
3 楼 qdj6679 2013-09-13 13:22
支持一下
2 楼 luoshengsha 2013-09-12 09:54
支持下我朋友,杨尚川,好好加油啊 ---罗生沙
1 楼 fat1 2013-09-11 10:46
支持川哥 V4

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Nutch公开课从搜索引擎到网络爬虫

    课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...

  • NUTCH公开课:从搜索引擎到网络爬虫

    Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce...

  • 开源力量公开课1-32期课件下载

    ...第一期 ...开源力量公开课第1期-生产环境下的Java排错调优-施懿民 ...第二期 ...开源力量公开课第2期-Go, 基于连接与组合的语言-许式伟 ...第三期 ...开源力量公开课第3期:2小时学会iOS应用开发 ...开源力量公开课第4期-M...

  • python3.6爬虫库_python3.6 网络爬虫

    《精通Python网络爬虫:核心技术、框架与项目实战》——导读前 言为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。...

  • 大数据基础课02 从萌芽到爆发,大数据经历了哪些发展?

    从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作...

  • Nutch+Solr学习笔记

    最近学习搜索引擎,以下为整理学习笔记:

  • 【WEB搜索技术】课程学习大纲与学习感悟

    导论(1)Web搜索的定义①Web搜索(2)Web搜索的发展背景①搜索引擎(3)Web搜索的挑战性(4)Web搜索的科学价值(5)1.5 Web搜索的研究状况①理论研究②语音搜索方面的研究③图像搜索的理论研究2.搜索引擎基础(1)搜索引擎体系...

  • 关于搜索引擎及其开发

    托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也已经工作了三年、四年。不过我估计,或者说是猜想,...

  • 数据采集及预处理——针对“数据”“采集”“预处理”的理解与解析

    网络数据采集3.ETL三. 预处理总结 前言 一、 数据 在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 数据(data)是事实或观察的结果,是对客观事物的逻辑...

  • 搜索引擎方案,仅脑构思

    多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念 爬虫 (1) 通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫) (2) 通过正则表达式等方式对网页内容进行去噪,过滤...

  • 关于搜索引擎及其开发[转]

    作者:xwjbs 来自:http://blog.csdn.net/xwjbs 托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也...

  • Nutch&Solr小计

    新开一篇专门记Nutch&Solr。 版本 Nutch版本 Nutch目前是两条线路开发,所以2.x并不比1.x来的高,来的新。 1.x(目前,最新1.8,默认搭配hadoop1.2,可以搭配hadoop2.2。)2.x(目前,最新2.2.1,默认搭配hadoop1.2...

  • 爬虫大全,爬虫工具汇总

    开源爬虫 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型 HTML 解析器。是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够...

  • 第11讲:深入理解指针(1).pdf

    第11讲:深入理解指针(1)

  • springboot整合 freemarker方法

    springboot整合 freemarker方法

  • 同行者4.1.2语音助手

    《同行者4.1.2语音助手:车机版安装详解》 在现代科技日新月异的时代,智能车载设备已经成为了汽车生活的重要组成部分。"同行者4.1.2"便是这样一款专为车机设计的语音助手,旨在提供更为便捷、安全的驾驶体验。该版本针对掌讯全系列设备进行了兼容优化,让车主能够轻松实现语音控制,减少驾驶过程中的手动操作,提升行车安全性。 我们来了解下"同行者4.1.2"的核心功能。这款语音助手集成了智能语音识别技术,用户可以通过简单的语音指令完成导航、音乐播放、电话拨打等一系列操作,有效避免了因操作手机或车机带来的分心。此外,其强大的语义理解和自学习能力,使得它能逐步适应用户的口音和习惯,提供更个性化的服务。 在安装过程中,用户需要注意的是,"同行者4.1.2"包含了四个核心组件,分别是: 1. TXZCore.apk:这是同行者语音助手的基础框架,包含了语音识别和处理的核心算法,是整个应用运行的基础。 2. com.txznet.comm.base.BaseApplication.apk:这个文件可能包含了应用的公共模块和基础服务,为其他组件提供支持。 3. TXZsetting.apk:这

  • 市场拓展主管绩效考核表.xls

    市场拓展主管绩效考核表

  • “线上购车3D全方位体验:汽车模型展示与个性化定制功能”,three.js案例- 线上购车3d展示(源码) 包含内容:1.汽车模型展示;2.汽车肤;3.轮毂部件更;4.开关车门动画;5.汽车尺寸测量

    “线上购车3D全方位体验:汽车模型展示与个性化定制功能”,three.js案例- 线上购车3d展示(源码) 包含内容:1.汽车模型展示;2.汽车肤;3.轮毂部件更;4.开关车门动画;5.汽车尺寸测量;6.自动驾驶;7.镜面倒影;8.hdr运用;9.移动端适配; 本为html+css+three.js源码 ,核心关键词:three.js案例; 线上购车3D展示; 汽车模型展示; 汽车换肤; 轮毂部件更换; 开关车门动画; 汽车尺寸测量; 自动驾驶; 镜面倒影; HDR运用; 移动端适配; HTML+CSS+three.js源码。,"Three.js源码:线上购车3D展示案例,含汽车模型、换肤、轮毂更换等九大功能"

  • (数据权威)中国城市_县域统计面板数据二合一

    数据名称:2000-2022年各县市区主要社会经济发展指标面板数据 数据类型:dta格式 数据来源:中国县域统计

Global site tag (gtag.js) - Google Analytics