- 浏览: 485712 次
- 性别:
- 来自: 湖南
-
最新评论
-
youngcoder:
good job
HTTP协议头部与Keep-Alive模式详解 -
javazdq:
受教了 解释的不错。
lucene创建索引高级特性和索引创建参数优化 -
josico:
有几个问题想问下楼主1. LinkedBlockingQueu ...
生产者-消费者-BlockingQueue -
annybz:
有没有关于 BlockingQueue和ConcurrentL ...
生产者-消费者-BlockingQueue -
uniquejava:
多谢,记录的很真实。
DB2 学习记录
文章列表
JVM配置参数中文说明:
-----------------------------------------------------------------------
1、-Xmixed mixed mode execution (default)
混合模式执行
2、-Xint interpreted mode execution only
解释模式执行
3、-Xbootclasspath:<directories and zip/jar files sep ...
最近在研究 Hibernate 的性能优化的时候碰到了"抓取策略", 由于以前没有详细的研究过,
所以到处找资料, 但是无论从一些讲 Hibernate 书籍,还是他人 Blog 中都没有找到详细
介绍 Hibernate 文档中所说的原汁原味的抓取策略, 综合懒加载等等特性混在了一起, 所
以在这自己在借鉴了他人的基础上研究了下原汁原味的 Hibernate 四种"抓取策略";
连接抓取(Join fetching)
- Hibernate通过 在SELECT
语句使用OUTER JOIN ...
wc命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。 语法:wc[选项]文件 说明:该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读
wc命令的功能为统计指定文件中的字节数、字数、行数, 并将统计结果显示输出。
语法:wc [选项] 文件…
说明:该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所有指定文件的总统计数。字是由空格字符区分开的最大字符串。
该命令各选项含义如下:
- c 统计字节数。
- l 统计行数。
- w 统计字数。
这些选项可以组 ...
提高Nutch局域网抓取的速度
如果想要提高Nutch局域网抓取的速度,大家第一个想到肯定是-threads
.但是那是错误的,如果只是单单增大线程数,那根本于事无补。
通过下面这组测试,我们看看-threads
是否起作用。首先在本地apache2下建立两个网站,写一个简单的Rakefile来帮助完成测试。设定depth=3
,下面是Rakefile的内容:
threads=1
depth=3
task:default => [:crawl]
task:crawl => [:clean] do
t=Time.now
s ...
nutch 1.0 读源码,过滤掉不正确的URL实现方法:
对URL不规则或想过滤掉的地方,可以通过修改源码来实现,省去写配置文件,因为配置文件并不是太明朗,有些配置了也不一定成功。所以我考虑在源码
上作操作。更好地扩展。当然你也可以去写插件,这儿就不说了,因为我也没有去那样实现,我只是对插件进行了扩展采集自己想要的内容。
过滤URL部分:
类:CrawlDbFilter
// 对url过滤的处理方法。可以实现一个自己的过滤器对URL进行重新定义成自己喜欢的URL
public void map(Text key, CrawlDatum val ...
Nutch-default.XML相关配置
<property>
<name>http.max.delays</name>
<value>20</value>
<description>The number of times a thread will delay when trying to
fetch a page. Each time it finds that a host is busy, it will wait
fetcher.server.delay. Afte ...
本人技术博客: http://demi-panda.com
本例介绍一个特殊的队列:BlockingQueue,如果BlockingQueue是空的,从BlockingQueue取东西的操作将会被阻断进入 等待状态,直到BlockingQueue进了东西才会被唤醒,同样,如果BlockingQueue是满的 ...
Crawl类的时序图。
流程如下:
1.
建立初始URL
集
2.
将URL
集注入crawldb
数据库---inject
3.
根据crawldb
数据库创建抓取列表---generate
4.
执行抓取,获取网页信息---fetch
5.
更新数据库,把获取到的页面信息存入数据库中---updatedb
6.
重复进行3
~5
的步骤,直到预先设定的抓取深度。---
代理模式与Java 动态代理类
文章分类:Java编程
1. 代理模式
代理模式的作用是:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个客户不想或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。
代理模式一般涉及到的角色有:
抽象角色:声明真实对象和代理对象的共同接口;
代理角色:代理对象角色内部含有对真实对象的引用,从而可以操作真实对象,同时代理对象提供与真实对象相同的接口以便在任何时刻都能代替真实对象。同时,代理对象可以在执行真实对象操 ...
1 中文分词介绍
中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前,Nutch中文分词方式大致有两种方式:
一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。
二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。
以上两种方式都是可取的。目前,由于开源社区的活跃,已经有很多种分词组件的出现,无论是修改源代码的方式还是编写分词插件的方式,都是依赖于这些分词组件的。下面列出了主要的一些分词组件:
1、CJKAnalyzer
Lucene自带的一种 ...
开源压力测试工具Apache benchmarking
用途
Apache2自带了一个开源压力测试工具,叫做ab(Apache Benchmarking)。它的主要功能是,测试当前的Apache每秒钟能够处理的请求数量。
语法
ab [选项] [http[s]://]hostname[:port]/path
详细选项:
ab [ -A auth-username:password ][ -c concurrency ][ -C cookie-name=value ] ...
LucidGaze for Solr 搜索监测工具
LucidGaze for Solr 是由 Lucid
开发的开源 solr 监测工具,提供快照、存储、交互视图、比较各种 solr 性能指标。 包括:
Record and graph metrics
捕获多种 handler 的每秒请求数(Capture requests-per-second
),如:StandardRequestHandler
捕获每个请求的处理时间(Capture processing time per request
)。
……
现来试用下
1 ...
最近在网上查了好多关于nutch增量式抓取的脚本,但是我觉得和nutch文档中所定义的增量式抓取有出入。应该算是累积式抓取。
好了,首先说一下
背景
:前一段时间搭建好nutch环境后,接下来的工作就是在怎么样
在服务器上进行累积式抓取,即在本地建立大型的索引数据库(有些问章提到分布式数据库,我不太明白)。那么毫无疑问,肯定是要用到nutch的底层命令,
如:generate fetch updatedb 等。可是,如果要人工来做的话,很费时间也很费事,那么想到的办法就是写
脚本
,通过脚本来建立、维护、更新数据库。
前提
:要保证有大量的URL数据,可以到DMO ...
如果想要提高Nutch局域网抓取的速度,大家第一个想到肯定是-threads
.但是那是错误的,如果只是单单增大线程数,那根本于事无补。
通过下面这组测试,我们看看-threads
是否起作用。首先在本地apache2下建立两个网站,写一个简单的Rakefile来帮助完成测试。设定depth=3
,下面是Rakefile的内容:
threads=1
depth=3
task:default => [:crawl]
task:crawl => [:clean] do
t=Time.now
sh "bin/nutch cra ...
nutch如何才能抓取到动态的url
http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0
在运行的时候不会抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt.
分析:使用nutch默认的配置过滤 ...