最新文章列表

nutch2.1+mysql报错及解决

错误信息:java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java: ...
yangshangchuan 评论(0) 有5120人浏览 2013-03-31 23:35

对Nutch2.1抽象存储层的一些看法

          Nutch2.1通过gora对存储层进行了扩展,可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFileAvroStore、AvroStore中任何一种来存储数据,但其中一些并不成熟。在我的反复测试中发现,整体来说,Nutch2.1比起Nutch1.6的性能要差得多,最重要的是不能长期稳定运行。Nutch1.6使用Hadoop Distr ...
yangshangchuan 评论(0) 有16452人浏览 2013-03-22 20:31

Nutch相关框架安装使用最佳指南

一、nutch1.2 二、nutch1.5.1 三、nutch2.0 四、配置SSH 五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch 六、安装Hadoop Cluster(分布式运行模式)并运行Nutch ...
yangshangchuan 评论(4) 有24065人浏览 2013-03-19 19:30

Nutch index源代码解析(一)

Nutch集成slor的索引方法介绍 /**    * 建立索引    * @param solrUrl solr的web地址    * @param crawlDb 爬取DB的存放路径:\crawl\crawldb    * @param linkDb 爬取link的存放路径:\crawl\linkdb    * @param segments 元数据存放路径:\crawl\seg ...
cz05141331 评论(0) 有1955人浏览 2013-03-14 10:41

Nutch2.1 in eclipse

Nutch2.1 in eclipse 主要目的: 1. 将nutch2.1放入eclipse中,便于调试源代码,查看nutch2.1是如何实现的。 2. 方便学习编写nutch2.1的plugin 准备: Linux环境 Nutch2.1 Mysql Java1.6 Eclipse 开始: 首先需要安装好jdk1.6,mysql,eclipse 开启eclipse,使用market plac ...
cosmo1987 评论(1) 有9472人浏览 2013-03-10 00:22

nutch 2.1 分布式hbase部署

官方文档:http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase 现在网上针对nutch 2.0 以上版本的部署内容很残缺。经过两天奋战,终于把nutch 2.1在hbase上部署成功了!在此与网友分享。 准备两台机器: cr5(master):192.168.8.185,cr8(slave) ...
wangwei3 评论(0) 有7602人浏览 2013-02-28 17:07

nutch1.5 运行 问题 求解

cygpath: can't convert empty path solrUrl is not set, indexing will be skipped... crawl started in: crawled rootUrlDir = urls threads = 10 depth = 3 solrUrl=null topN = 50 Injector: starting at 2012-11 ...
wanglei2999 评论(1) 有1504人浏览 2012-11-21 14:47

SEVERE: org.apache.solr.common.SolrException: undefined field text

原文出处:http://blog.csdn.net/posa88/article/details/7880835 首先感谢原作者,这个问题折腾了我好久好久。 Nutch 版本 : 1.5.1 Solr 版本 : 3.6.0 异常来由: 将Nutch/conf下的schema.xml复制到solr/home下的conf目录下覆盖已有的schema.xml,启动Tomcat异常。 解决办法: ...
andy_ghg 评论(0) 有7023人浏览 2012-08-21 19:32

nutch杂记

1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的 ...
lc87624 评论(3) 有7060人浏览 2012-08-08 18:25

nutch1.2 index 详解

首先如果存在crawl/index ,crawl/indexes目录则删除 map:IndexerMapReduce      map输入目录为  所有的segment的crawl_fetch  crawl_parse parse_data parse_text , crawl/crawldb/current, crawl/linkdb/current      1 map的任务就是为了合并目 ...
chengqianl 评论(0) 有1879人浏览 2012-07-18 15:16

nutch 配置文件

NutchConfiguration 类中的初始化   public static Configuration createCrawlConfiguration() {     Configuration conf = new Configuration();     addNutchResources(conf, true);     return conf;   } 调用 NutchConfig ...
chengqianl 评论(0) 有1118人浏览 2012-06-27 16:57

垂直搜索引擎行业应用技术探讨

  在简单过滤之后,选择研究apache nutch来进行数据爬取。 在深入了解和学习之后,发现 Nutch 实现网页爬取,通过plugin机制可以自定义相应的规则和数据处理逻辑,结合hadoop实现数据的分布式存储。
tjc 评论(0) 有1460人浏览 2012-06-08 15:13

在UBUNTU安装NUTCH(十个简单的步骤)

下面十个步骤能安装Nutch, 并且能爬行你的网站, 创建你自己网站的Web DB。如果你有任何问题, 请给我邮件:mail.swapnilk@gmail.com步骤 1:从这里下载最新的程序:http://www.apache.org/dyn/closer.cgi/nutch/步骤  2:创建文件夹:sudo mkdir /usr/local/nutchsudo mkdir /usr/local/ ...
eimhee 评论(0) 有4010人浏览 2012-06-06 17:32

Nutch1.2标题关键字高亮的正确方法

最近在弄Nutch1.2,实现关键字高亮,却发现标题关键字高亮的方法,国内网站上的都是错的,最终在nutch.apache.org网站找到了相近的代码,进行修改,终于成功完成 关键字的高亮需要自己再创建一个分词器,关键的类是TokenStream,lucene3.0以上需要用到TermAttribute。 一、内容关键字高亮很简单,修改include/style.html即可:    .high ...
jasorel 评论(1) 有803人浏览 2012-05-21 17:46

Nutch源代码解读--3

以上是Hadoop的基本流程,如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些 ...
wwkevin811 评论(0) 有1402人浏览 2012-04-30 18:49

nutch 1.4成功在windows的配置和使用

资料准备:setup.exe  这个是在windows上模拟liunx用的一个终端,下载地址:http://www.cygwin.com/(安装后注意设置环境变量CYGWIN_HOME,然后把它的bin加到path目录) nutch 1.4  下载地址:http://www.apache.org/dyn/closer.cgi/lucene/nutch/ ant 1.8 下载地址:http://a ...
Neoman 评论(0) 有4031人浏览 2012-04-19 22:58

Nutch 源代码分析(1) Crawl 类

  (以下分析针对的是 nutch 1.4)   Crawl 类是运行抓取程序的入口,代码不多,但关联的其他类不少。   抓取的流程是:   1. 将初始的 URL 地址注入到 crawlDb   2. 从crawldb中生成一个url的子集用于抓取   3. 抓取网页   4. 分析网页   5. 更新 crawlDb ,增加新抓取的 url   6. 循环执行 2-5 步,直到达到指定 ...
裴小星 评论(0) 有3604人浏览 2012-04-06 23:20

Nutch原理

Nutch原理(转载) Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。      
q15106202446 评论(0) 有1230人浏览 2012-02-15 09:10

nutch1.4 部署应用

  nutch1.4在2011年的11月26日正式发布了,nutch1.4之后更新了一些内容和一些配置,但是和1.3差别还是不大,但是和1.2之前的差异就比较大了,在nutch1.3之后,索引就用solr来进行生成了,包括查询也是用solr,所以在nutch1.2之前的web搜索服务也就不需要了。 首先我们去nutch的官网下载最新版的nutch1.4 地址为: http://www.a ...
saiyaren 评论(25) 有8247人浏览 2012-02-07 14:29

元宵爬虫-YuanXiaoSpider

翻译了下..没有元宵的淫文啊....所以用PinYing吧... 这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫. 该考虑的部分考虑了..不该考虑的没考虑 这里是个程序运行的大概UML不怎么会画凑合看吧 支持正则过滤网址  支持抽取模板   这个项目比起nutch不具有可比性...如果你非要当个demo来看我也不喊冤呵呵... 里面的url抽取..正文抽取...都是自 ...
ansjsun 评论(8) 有4575人浏览 2012-02-06 12:25

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics