nutch热门博客列表 - ITeye博客频道 - 第4页

博客专栏推荐

本月博客排行

年度博客排行

nutch2.1+mysql报错及解决

错误信息：java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java: ...

nutch 搜索网络爬虫 mysql gora

yangshangchuan 评论(0) 有5120人浏览 2013-03-31 23:35

对Nutch2.1抽象存储层的一些看法

Nutch2.1通过gora对存储层进行了扩展，可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFileAvroStore、AvroStore中任何一种来存储数据，但其中一些并不成熟。在我的反复测试中发现，整体来说，Nutch2.1比起Nutch1.6的性能要差得多，最重要的是不能长期稳定运行。Nutch1.6使用Hadoop Distr ...

Nutch HBase Accumulo Cassandra Gora

yangshangchuan 评论(0) 有16451人浏览 2013-03-22 20:31

Nutch相关框架安装使用最佳指南

一、nutch1.2 二、nutch1.5.1 三、nutch2.0 四、配置SSH 五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch 六、安装Hadoop Cluster（分布式运行模式）并运行Nutch ...

nutch hadoop lucene solr gora

yangshangchuan 评论(4) 有24065人浏览 2013-03-19 19:30

Nutch index源代码解析(一)

Nutch集成slor的索引方法介绍 /** * 建立索引 * @param solrUrl solr的web地址 * @param crawlDb 爬取DB的存放路径：\crawl\crawldb * @param linkDb 爬取link的存放路径：\crawl\linkdb * @param segments 元数据存放路径：\crawl\seg ...

Nutch solr hadoop 索引

cz05141331 评论(0) 有1954人浏览 2013-03-14 10:41

Nutch2.1 in eclipse

Nutch2.1 in eclipse 主要目的： 1. 将nutch2.1放入eclipse中，便于调试源代码，查看nutch2.1是如何实现的。 2. 方便学习编写nutch2.1的plugin 准备: Linux环境 Nutch2.1 Mysql Java1.6 Eclipse 开始：首先需要安装好jdk1.6，mysql，eclipse 开启eclipse，使用market plac ...

linux nutch java

cosmo1987 评论(1) 有9471人浏览 2013-03-10 00:22

nutch 2.1 分布式hbase部署

官方文档：http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase 现在网上针对nutch 2.0 以上版本的部署内容很残缺。经过两天奋战，终于把nutch 2.1在hbase上部署成功了！在此与网友分享。准备两台机器： cr5(master)：192.168.8.185，cr8(slave) ...

hbase hadoop nutch

wangwei3 评论(0) 有7602人浏览 2013-02-28 17:07

nutch1.5 运行问题求解

cygpath: can't convert empty path solrUrl is not set, indexing will be skipped... crawl started in: crawled rootUrlDir = urls threads = 10 depth = 3 solrUrl=null topN = 50 Injector: starting at 2012-11 ...

nutch

wanglei2999 评论(1) 有1504人浏览 2012-11-21 14:47

SEVERE: org.apache.solr.common.SolrException: undefined field text

原文出处：http://blog.csdn.net/posa88/article/details/7880835 首先感谢原作者，这个问题折腾了我好久好久。 Nutch 版本： 1.5.1 Solr 版本： 3.6.0 异常来由：将Nutch/conf下的schema.xml复制到solr/home下的conf目录下覆盖已有的schema.xml，启动Tomcat异常。解决办法： ...

solr xml nutch

andy_ghg 评论(0) 有7023人浏览 2012-08-21 19:32

nutch杂记

1. 如何绕过目标站点的robots.txt限制多数站点都是只允许百度、google等搜索引擎抓取的，所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的 ...

nutch

lc87624 评论(3) 有7059人浏览 2012-08-08 18:25

nutch1.2 index 详解

首先如果存在crawl/index ,crawl/indexes目录则删除 map：IndexerMapReduce map输入目录为所有的segment的crawl_fetch crawl_parse parse_data parse_text , crawl/crawldb/current, crawl/linkdb/current 1 map的任务就是为了合并目 ...

nutch indexer

chengqianl 评论(0) 有1879人浏览 2012-07-18 15:16

nutch 配置文件

NutchConfiguration 类中的初始化 public static Configuration createCrawlConfiguration() { Configuration conf = new Configuration(); addNutchResources(conf, true); return conf; } 调用 NutchConfig ...

nutch conf

chengqianl 评论(0) 有1118人浏览 2012-06-27 16:57

垂直搜索引擎行业应用技术探讨

在简单过滤之后，选择研究apache nutch来进行数据爬取。在深入了解和学习之后，发现 Nutch 实现网页爬取，通过plugin机制可以自定义相应的规则和数据处理逻辑，结合hadoop实现数据的分布式存储。

Nutch Solr Hadoop 搜索

tjc 评论(0) 有1460人浏览 2012-06-08 15:13

在UBUNTU安装NUTCH(十个简单的步骤)

下面十个步骤能安装Nutch, 并且能爬行你的网站，创建你自己网站的Web DB。如果你有任何问题，请给我邮件：mail.swapnilk@gmail.com步骤 1:从这里下载最新的程序：http://www.apache.org/dyn/closer.cgi/nutch/步骤 2:创建文件夹：sudo mkdir /usr/local/nutchsudo mkdir /usr/local/ ...

apache nutch

eimhee 评论(0) 有4010人浏览 2012-06-06 17:32

Nutch1.2标题关键字高亮的正确方法

最近在弄Nutch1.2，实现关键字高亮，却发现标题关键字高亮的方法，国内网站上的都是错的,最终在nutch.apache.org网站找到了相近的代码，进行修改，终于成功完成关键字的高亮需要自己再创建一个分词器,关键的类是TokenStream,lucene3.0以上需要用到TermAttribute。一、内容关键字高亮很简单，修改include/style.html即可： .high ...

Nutch 搜索引擎关键字高亮标题 lucene

jasorel 评论(1) 有802人浏览 2012-05-21 17:46

Nutch源代码解读--3

以上是Hadoop的基本流程，如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些� ...

Nutch

wwkevin811 评论(0) 有1402人浏览 2012-04-30 18:49

nutch 1.4成功在windows的配置和使用

资料准备：setup.exe 这个是在windows上模拟liunx用的一个终端，下载地址：http://www.cygwin.com/(安装后注意设置环境变量CYGWIN_HOME,然后把它的bin加到path目录) nutch 1.4 下载地址：http://www.apache.org/dyn/closer.cgi/lucene/nutch/ ant 1.8 下载地址：http://a ...

nutch

Neoman 评论(0) 有4031人浏览 2012-04-19 22:58

Nutch 源代码分析(1) Crawl 类

　　（以下分析针对的是 nutch 1.4）　　Crawl 类是运行抓取程序的入口，代码不多，但关联的其他类不少。　　抓取的流程是：　　1. 将初始的 URL 地址注入到 crawlDb 　　2. 从crawldb中生成一个url的子集用于抓取　　3. 抓取网页　　4. 分析网页　　5. 更新 crawlDb ，增加新抓取的 url 　　6. 循环执行 2-5 步，直到达到指定 ...

nutch crawl solr hadoop java

裴小星评论(0) 有3604人浏览 2012-04-06 23:20

Nutch原理

Nutch原理(转载) Nutch主要分为两个部分：爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。

Nutch

q15106202446 评论(0) 有1229人浏览 2012-02-15 09:10

nutch1.4 部署应用

nutch1.4在2011年的11月26日正式发布了,nutch1.4之后更新了一些内容和一些配置，但是和1.3差别还是不大，但是和1.2之前的差异就比较大了，在nutch1.3之后，索引就用solr来进行生成了，包括查询也是用solr，所以在nutch1.2之前的web搜索服务也就不需要了。首先我们去nutch的官网下载最新版的nutch1.4 地址为： http://www.a ...

nutch

saiyaren 评论(25) 有8247人浏览 2012-02-07 14:29

元宵爬虫-YuanXiaoSpider

翻译了下..没有元宵的淫文啊....所以用PinYing吧... 这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫. 该考虑的部分考虑了..不该考虑的没考虑这里是个程序运行的大概UML不怎么会画凑合看吧支持正则过滤网址支持抽取模板这个项目比起nutch不具有可比性...如果你非要当个demo来看我也不喊冤呵呵... 里面的url抽取..正文抽取...都是自 ...

java nutch demo curren nio

ansjsun 评论(8) 有4575人浏览 2012-02-06 12:25

« 上一页 1 2 3 4 5 下一页 »

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

nutch2.1+mysql报错及解决

对Nutch2.1抽象存储层的一些看法

Nutch相关框架安装使用最佳指南

Nutch index源代码解析(一)

Nutch2.1 in eclipse

nutch 2.1 分布式hbase部署

nutch1.5 运行问题求解

SEVERE: org.apache.solr.common.SolrException: undefined field text

nutch杂记

nutch1.2 index 详解

nutch 配置文件

垂直搜索引擎行业应用技术探讨

在UBUNTU安装NUTCH(十个简单的步骤)

Nutch1.2标题关键字高亮的正确方法

Nutch源代码解读--3

nutch 1.4成功在windows的配置和使用

Nutch 源代码分析(1) Crawl 类

Nutch原理

nutch1.4 部署应用

元宵爬虫-YuanXiaoSpider

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论