本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- lzyfn123
- zhanjia
- johnsmith9th
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
nutch 01 认识nutch
1.1 什么是nutch nutch 就一个开源的java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和web爬虫。现在的nutch 的发展趋势是网络爬虫,全文搜索是用lucene的内核,nutch 是lucene的一个子项目,apache 又从nutch项目里面产生了hadoop,tika,gora等其他子项目,其实就是对一些公共模块的封装,重用,然后起个名字,实 ...
nutch2.1+mysql+elasticsearch整合linux单机部署
from internet
这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。
1、下载nutch2.1
nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar.gz
下载完成后解压,
2、配置nut ...
Nutch的发展历程
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人
下面是Nutch的发展历程:
2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本
2004年9月Oregon State University
solr环境配置、中文分词、数据库
一、配置solr环境
1、 下载solr http://www.apache.org/dyn/closer.cgi/lucene/solr/
此处用的是3.5 解压到D盘D:/solr/apache-solr-3.5.0
2、修改tomcat conf/server.xml
<Connector connectionTimeout="20000" port= ...
nutch研究—遇到的错误和解决办法
1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log
出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。
解决:从新完整的 ...
NUTCH公开课:从搜索引擎到网络爬虫
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
大数据这个术语最早的引用可追溯到Nutch。 ...
Apache nutch1.5 & Apache solr3.6詳解
第1章引言
1.1nutch和 solr
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Solr 拥有像 web-services API 的独立的企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果。
1.2研究
nutch1.6+solr3.6的在win7下入门部署
1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。
2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本
[img][/img],正确之后
就可 ...
nutch nutch-site.xml
1. nutch-site.xml的变更不需要重新ant, 与ycs的说法有误
2. nutch-site.xml中的
<property>
<name>http.agent.name</name>
<value>Mozilla/5.0 (Windows NT 6.1; rv:20.0) Gecko/20100101 Firefox/20.0 ...
nutch入门教程[更新视频下载连接]
在windows下需要使用cygwin 模拟linux环境
下载地址 : www.cygwin.com
下载之后安装
一路默认 下一步(切记不要断开网络这个安装包只是一个下载器,安装需要联网)
选择一个地址,继续下一步,我这里选择的是163的地址
继续默认下一步,会自动下载需要的文件安装完成
双击快捷图标,会出现
输入命令试试吧下面开始nutch之旅吧
nutch下载地 ...
Ubuntu上安装HADOOP多机完全分布式集群
1、三台机器
host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)
host6(DataNode、TaskTracker)
host8(DataNode、TaskTracker)
vi /etc/hostname(分别给每一台主 ...
Windows上安装HADOOP单机伪分布式集群
1、准备HADOOP运行环境
下载解压并拷贝到Cygwin的用户主目录
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
1.x版本有BUG,参考:
https://issues.apache.org/jira/browse/HADOOP-7682https://issues.apa ...
配置Cygwin支持无密码SSH登陆
1、安装SSH
默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup-x86_64.exe
在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and clien ...
Ubuntu上安装HADOOP单机伪分布式集群
1、新建用户和组
addgroup hadoop
adduser --ingroup hadoop hadoop
注销root以hadoop用户登录
2、配置SSH
ssh-keygen -t rsa(密码为空,路径默认)
cp .ssh/id_rsa.pub .ssh/authorized_keys
3、准备HADOOP运行环境
wget http://archiv ...
Cygwin运行nutch报错:Failed to set permissions of path
错误信息:
Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700
官方BUG参考:
https://issues.apache.or ...