`
guoyunsky
  • 浏览: 863552 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:208056
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论
文章列表
         本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/1169912         队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heritrix是基于Bdb实现了一个持久化队列,于是我就将这块代码独立出来,平时使用也蛮爽的,现在拿出来共享.同时数据已经持久化,相比放在内存的一次性,可以循环累加使用.       大家也知道BDB的高性能和嵌入式.但 ...
       本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/868043            由于不想让博客太难看,所以写到二.这里也会循序渐进,一步步走入所谓的高效和安全.        上一篇,介绍了思路、设计。博客地址:http://guoyunsky.iteye.com/blog/867469 同时写了个MyOutputStream,用于读取输入流(如IO、网络),但恐怕输入流过大,或者多线程并发读取的时候导致总的内存占用过大.所以采用缓存+文件存放形式。缓存固定一个大小,这样可以控制内存,同时可以重复利用. ...
      本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/867469       这个标题可能有些歧义,我也不知道该取什么标题,知道的同学帮忙取下.同时这只是我平时的一个总结,问题估计会有很多,大家帮 ...
      本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/856551         今天一早收到一封老外的邮件,让我甚是惭愧.       邮件是之前我提问,关于改了某个开源框架的源代码,实现一个功能.但 ...
        本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/854730       欢迎加入Heritrix群(QQ): 109148319 , 10447185  , Lucene/Solr群(QQ) :  118972724         慢慢的得开始考虑些底层的东西,以前微乎其微的一个小功能或许在今天就足已影响你程序的性能、效率等问题.就如现在碰到的,将一个Byte数组,转换成字符串,并且还可以动态的根据位置获取该位置的字符.如果在以往,可能简单的借用String几个方法就行.但换到今 ...
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/802721      欢迎加入Heritrix群(QQ): 109148319 , 10447185           开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更 ...
       由于Python出现了一些问题,导致想重装Python。于是sudo apt-get remove python砸下去,Ubuntu立马就出现了问题,终端不能进入.本以为可以像在Windows下一样重装Python就完事,后来才发现原来Ubuntu依赖Python,删除Python自然就会导致Ubuntu同样也出现问题。由于之前也没有备份,于是先通过SSH把里面的资料拷出来,然后就破罐子破摔,网上搜罗些资料,以及在 http://ubuntuforums.org/  发帖,最终将问题解决,庆幸至极!下面就列出解决方案。目前我的机器是在Windows XP上通过Sun Vir ...
     这篇博客可能没有什么意思,但对我教训很大,所以贴上博客,警示自己。      在Windows XP上通过Sun VirtualBox安装Ubuntu后,想固定Ubuntu的IP以及让他们可以互相访问,比如ping对方IP、Ubuntu上安装SSH WindowsXP可以访问到。自己在网上找了些教程折腾了很久还是无果,感觉相当郁闷。因为以前直接摆弄Linux(该台电脑的操作系统是Linux)都没有问题,为什么通过Sun VirtualBox这种虚拟机则不行。于是想来想去,原因应该出现在Sun VirtualBox上,最终解决,这里把方案贴出。本贴针对,在Windows Xp上通过 ...
     最近开始使用Ubuntu,于是在Windows XP下通过Sun VirtualBox安装了Ubuntu10.04,但发现没法全屏(只有800*600的样子).于是在网上找资料,解决方法如下:  1)点Sun VirtualBox下的设备->安装增强功能; 2)会在桌面出现一个文件夹VBoxAdditions_数字的文件,如果桌面上没出现,可以在place找. 3)双击桌面文件夹VBoxAdditions,进入该文件夹,双击VBoxLinuxAdditions-x86.run,这时候如果弹出权限不足的提示,则无法完成安装。  解决方法是:将VBoxLinuxAddition ...
  本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/761308         欢迎加入Heritrix群(QQ): 109148319         最近要使用Solr做分布式搜索,自己一开始也是从网上搜集一些资料照着做.其中发现对Sol ...
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/759148       欢迎加入Heritrix群(QQ): 109148319       Solr有个很方便的处理器叫DataImportHandler,可以通过配置配置db-data-config.xml配置各种数据源然后 从中导入数据进行索引,很方便我们进行开发.但是之前从数据库导入数据一直有个问题,就是如果数据库中数据过大,就会导致内存溢出.自己经过阅读源码以及发邮件到Solr邮件列表,终于找到了解决办法,这里拿出来共享.       这里我的Solr版本是Solr ...
      某天登陆QQ不久,收到了一个弹窗,内容是QQ对计算机报发表的《“狗日的”腾讯》做出的声明,于是赶紧去搜索了下相关内容,也包括那篇《“狗日的”腾讯》.这里谈下感受.       最近跟QQ也是有缘,有个好兄弟进了腾讯.同时自己也在近期,花了100多块大洋成为了QQ的年付费会员.但成为QQ会员是在淘宝上交易的,而且交易过程还有些曲折.一开始找了家老乡(我是江西吉安的)的店铺充了三个月,结果没过几天就出现了问题,那个老乡是用手机充的,没过几天手机欠费了,我的会员也冻结以及最后取消了.但是淘宝对于虚拟物品不允许投诉,于是不了了之(主要是自己不想去折腾).随后找了家淘宝商城,一口气充了一 ...
       本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/724989       欢迎加入Heritrix群(QQ):109148319         当查询 "Java AND Lucene" 的时候,需要对Java跟Lucene这个两个Term的查询结果取交集,也就是对查询到他们的DocumentID取交集,然后对获取到交集的DocumentID,根据评分,获得评分前N的DocumentID(至于Lucene获得评分前N的DocumentID算法,我请查看我这篇博客:Lucene3.0源码分 ...
       本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/723963       欢迎加入Heritrix群(QQ):109148319       通过Lucene搜索返回的是评分(Score)前N的结果,默认是前100.这里我将这段算法复制下来,具体请看注释,同时这段算法不依赖Lucene任何组件,可以直接运行。   /** * 在一对数中找出前N个大的数,采用二叉堆 * 模仿Lucene中的获得评分前N的DocumentID * * @author Administrator * * ...
    源码分析的第一步就是要在IDE上建立相关工程,然后一步一步的学习进去.建立Lucene3.0.2工程我绕了些冤枉路,所以感觉有必要写下这篇博客:         欢迎加入Heritrix群(QQ):109148319       1.下载源码:          从apac ...
Global site tag (gtag.js) - Google Analytics