阅读更多
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫

开课时间:2013年9月17日 19:00 - 21:30

现场或线上参课:

  • 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与)
  • 线上直播(免费):邮件报名后将即时提供线上参课网址
现场或线上参课:http://www.osforce.cn/uncategorized/1703.html

报名:

  • 发邮件到 osf@osforce.cn ,邮件标题:开源力量公开课第30期, 邮件正文:在线或现场+姓名+公司+职位+联系电话
  • 邮件报名后,我们将即时回复线上参课网址
  • 若未收到不要前往现场的邮件,默认表示通过
  • 不接受未报名空降,拒绝放鸽子
课程背景:

Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现。

课程大纲:

  • Nutch是什么?
  • Nutch的设计初衷?
  • 为什么要学习Nutch?
  • Nutch的设计目标
  • Nutch的发展历程
  • Nutch的整体架构
  • Nutch 3大分支版本
  • Nutch的应用领域
  • Nutch的使用
讲师介绍:

杨尚川,系统架构设计师,系统分析师,2013年度优秀开源项目APDPlat发起人,资深Nutch搜索引擎专家。多年专业的软件研发经验,从事过管理信息系统(MIS)开发、移动智能终端(Win CE、Android、Java ME)开发、搜索引擎(nutch、lucene、solr、elasticsearch)开发、大数据分析处理(Hadoop、Hbase、Pig、Hive)等工作。目前为独立咨询顾问,专注于大数据、搜索引擎等相关技术,为客户提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解决方案、技术支持、技术咨询以及培训等服务。

时间安排:

  • 18:30 - 19:00:自我介绍
  • 19:00 - 21:00:讲课
  • 21:00 - 21:30:自由交流
开源力量公开课,每周二晚线上线下同时开课,让我们一起向IT技术大牛们学习!

更多信息:http://www.osforce.cn
  • 大小: 92.1 KB
来自: 开源力量
6
1
评论 共 8 条 请登录后发表评论
7 楼 yangshangchuan 2013-09-18 05:10
课件可到我的博客下载,地址:http://yangshangchuan.iteye.com/blog/1941498
6 楼 啦登2010 2013-09-16 15:14
顶一个。。。。。。。。。。。。。。。。。。
5 楼 yangshangchuan 2013-09-16 01:23
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。
4 楼 yangshangchuan 2013-09-14 17:45
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
3 楼 qdj6679 2013-09-13 13:22
支持一下
2 楼 luoshengsha 2013-09-12 09:54
支持下我朋友,杨尚川,好好加油啊 ---罗生沙
1 楼 fat1 2013-09-11 10:46
支持川哥 V4

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Nutch公开课从搜索引擎到网络爬虫

    课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...

  • NUTCH公开课:从搜索引擎到网络爬虫

    Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce...

  • 开源力量公开课1-32期课件下载

    ...第一期 ...开源力量公开课第1期-生产环境下的Java排错调优-施懿民 ...第二期 ...开源力量公开课第2期-Go, 基于连接与组合的语言-许式伟 ...第三期 ...开源力量公开课第3期:2小时学会iOS应用开发 ...开源力量公开课第4期-M...

  • python3.6爬虫库_python3.6 网络爬虫

    《精通Python网络爬虫:核心技术、框架与项目实战》——导读前 言为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。...

  • 大数据基础课02 从萌芽到爆发,大数据经历了哪些发展?

    从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作...

  • Nutch+Solr学习笔记

    最近学习搜索引擎,以下为整理学习笔记:

  • 【WEB搜索技术】课程学习大纲与学习感悟

    导论(1)Web搜索的定义①Web搜索(2)Web搜索的发展背景①搜索引擎(3)Web搜索的挑战性(4)Web搜索的科学价值(5)1.5 Web搜索的研究状况①理论研究②语音搜索方面的研究③图像搜索的理论研究2.搜索引擎基础(1)搜索引擎体系...

  • 关于搜索引擎及其开发

    托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也已经工作了三年、四年。不过我估计,或者说是猜想,...

  • 数据采集及预处理——针对“数据”“采集”“预处理”的理解与解析

    网络数据采集3.ETL三. 预处理总结 前言 一、 数据 在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 数据(data)是事实或观察的结果,是对客观事物的逻辑...

  • 搜索引擎方案,仅脑构思

    多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念 爬虫 (1) 通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫) (2) 通过正则表达式等方式对网页内容进行去噪,过滤...

  • 关于搜索引擎及其开发[转]

    作者:xwjbs 来自:http://blog.csdn.net/xwjbs 托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也...

  • Nutch&Solr小计

    新开一篇专门记Nutch&Solr。 版本 Nutch版本 Nutch目前是两条线路开发,所以2.x并不比1.x来的高,来的新。 1.x(目前,最新1.8,默认搭配hadoop1.2,可以搭配hadoop2.2。)2.x(目前,最新2.2.1,默认搭配hadoop1.2...

  • 爬虫大全,爬虫工具汇总

    开源爬虫 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型 HTML 解析器。是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够...

  • pendulum-2.1.2-cp39-cp39-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • Nginx配置文件中FastCGI相关参数理解

    Nginx配置文件中FastCGI相关参数理解

  • Pillow-8.4.0-cp310-cp310-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • yolo算法-刹车灯探测器数据集-1070张图像带标签-交通信号灯.zip

    yolo系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值

  • pocketsphinx-0.1.15-cp36-cp36m-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • NI-VISA资源安装包

    Windows下2024Q4版本

  • 【java毕业设计】网上电子书店源码(ssm+mysql+说明文档+LW).zip

    功能说明: (a) 管理员;管理员使用本系统涉到的功能主要有主页、个人中心、用户管理、一级分类管理、二级分类管理、电子书管理、下单购买管理、我的书籍管理、留言反馈、系统管理等功能。 (b) 用户;用户进入系统可以实现首页、电子书、通知公告、留言反馈、个人中心、后台管理、在线客服等,登录注册后可以对主页、个人中心、下单购买管理、我的书籍管理、留言反馈等功能进行详细操作。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上 服务器:tomcat7及以上

Global site tag (gtag.js) - Google Analytics