JVM配置参数中文说明

博客分类：

j2ee

JVM配置参数中文说明： ----------------------------------------------------------------------- 1、-Xmixed mixed mode execution (default) 混合模式执行 2、-Xint interpreted mode execution only 解释模式执行 3、-Xbootclasspath:<directories and zip/jar files sep ...

2010-12-02 13:04
浏览 1250
评论(0)
分类:编程语言

Hibernate 四种抓取策略

博客分类：

hibernate

Hibernate SQL Blog

最近在研究 Hibernate 的性能优化的时候碰到了"抓取策略", 由于以前没有详细的研究过, 所以到处找资料, 但是无论从一些讲 Hibernate 书籍,还是他人 Blog 中都没有找到详细介绍 Hibernate 文档中所说的原汁原味的抓取策略, 综合懒加载等等特性混在了一起, 所以在这自己在借鉴了他人的基础上研究了下原汁原味的 Hibernate 四种"抓取策略"; 连接抓取（Join fetching） - Hibernate通过在SELECT 语句使用OUTER JOIN ...

2010-12-01 13:34
浏览 1983
评论(0)
分类:企业架构

linux下wc命令使用详解---linux文件内容统计命令

博客分类：

linux

Linux C C++C#

wc命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。语法：wc[选项]文件说明：该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名，则从标准输入读 wc命令的功能为统计指定文件中的字节数、字数、行数, 并将统计结果显示输出。语法：wc [选项] 文件… 说明：该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名，则从标准输入读取。wc同时也给出所有指定文件的总统计数。字是由空格字符区分开的最大字符串。该命令各选项含义如下： - c 统计字节数。 - l 统计行数。 - w 统计字数。这些选项可以组 ...

2010-12-01 12:34
浏览 1989
评论(0)
分类:操作系统

提高Nutch局域网抓取的速度

博客分类：

nutch

XML

提高Nutch局域网抓取的速度如果想要提高Nutch局域网抓取的速度，大家第一个想到肯定是-threads .但是那是错误的,如果只是单单增大线程数，那根本于事无补。通过下面这组测试，我们看看-threads 是否起作用。首先在本地apache2下建立两个网站，写一个简单的Rakefile来帮助完成测试。设定depth=3 ,下面是Rakefile的内容: threads=1 depth=3 task:default => [:crawl] task:crawl => [:clean] do t=Time.now s ...

2010-11-30 19:36
浏览 1340
评论(0)
分类:编程语言

nutch 过滤掉不正确的URL实现方法:

博客分类：

nutch

Blog

nutch 1.0 读源码，过滤掉不正确的URL实现方法: 对URL不规则或想过滤掉的地方，可以通过修改源码来实现，省去写配置文件，因为配置文件并不是太明朗，有些配置了也不一定成功。所以我考虑在源码上作操作。更好地扩展。当然你也可以去写插件，这儿就不说了，因为我也没有去那样实现，我只是对插件进行了扩展采集自己想要的内容。过滤URL部分：类：CrawlDbFilter // 对url过滤的处理方法。可以实现一个自己的过滤器对URL进行重新定义成自己喜欢的URL public void map(Text key, CrawlDatum val ...

2010-11-29 22:39
浏览 1999
评论(0)
分类:编程语言

nutch中Nutch-defaul.xml相关配置

博客分类：

nutch

XML lucene 网络应用搜索引擎应用服务器

Nutch-default.XML相关配置 <property> <name>http.max.delays</name> <value>20</value> <description>The number of times a thread will delay when trying to fetch a page. Each time it finds that a host is busy, it will wait fetcher.server.delay. Afte ...

2010-11-28 22:27
浏览 1893
评论(0)
分类:编程语言

生产者-消费者-BlockingQueue

博客分类：

thread

thread 数据结构

本人技术博客： http://demi-panda.com 本例介绍一个特殊的队列：BlockingQueue，如果BlockingQueue是空的，从BlockingQueue取东西的操作将会被阻断进入等待状态，直到BlockingQueue进了东西才会被唤醒，同样，如果BlockingQueue是满的� ...

2010-11-27 19:41
浏览 7222
评论(2)
分类:编程语言

nutch的核心流程分析

博客分类：

nutch

lucene Apache 搜索引擎招聘 Hadoop

Crawl类的时序图。流程如下: 1. 建立初始URL 集 2. 将URL 集注入crawldb 数据库---inject 3. 根据crawldb 数据库创建抓取列表---generate 4. 执行抓取，获取网页信息---fetch 5. 更新数据库，把获取到的页面信息存入数据库中---updatedb 6. 重复进行3 ～5 的步骤，直到预先设定的抓取深度。---

2010-11-26 00:09
浏览 2281
评论(0)
分类:编程语言

Java 代理模式与动态代理类

博客分类：

j2ee

Java Bean Spring C#C++

代理模式与Java 动态代理类文章分类:Java编程 1. 代理模式代理模式的作用是：为其他对象提供一种代理以控制对这个对象的访问。在某些情况下，一个客户不想或者不能直接引用另一个对象，而代理对象可以在客户端和目标对象之间起到中介的作用。代理模式一般涉及到的角色有：抽象角色：声明真实对象和代理对象的共同接口；代理角色：代理对象角色内部含有对真实对象的引用，从而可以操作真实对象，同时代理对象提供与真实对象相同的接口以便在任何时刻都能代替真实对象。同时，代理对象可以在执行真实对象操 ...

2010-11-21 16:51
浏览 3588
评论(0)
分类:编程语言

Nutch中文分词总结

博客分类：

nutch

lucene Apache Ant XML 算法

1 中文分词介绍中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前，Nutch中文分词方式大致有两种方式：一是修改源代码。这种方式是直接对Nutch分词处理类进行修改，调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前，由于开源社区的活跃，已经有很多种分词组件的出现，无论是修改源代码的方式还是编写分词插件的方式，都是依赖于这些分词组件的。下面列出了主要的一些分词组件： 1、CJKAnalyzer Lucene自带的一种 ...

2010-11-18 19:06
浏览 2581
评论(0)
分类:编程语言

开源压力测试工具Apache benchmarking

博客分类：

测试

Apache 软件测试 C C++C#

开源压力测试工具Apache benchmarking 用途 Apache2自带了一个开源压力测试工具，叫做ab（Apache Benchmarking）。它的主要功能是，测试当前的Apache每秒钟能够处理的请求数量。语法 ab [选项] [http[s]://]hostname[:port]/path 详细选项： ab [ -A auth-username:password ][ -c concurrency ][ -C cookie-name=value ] ...

2010-11-15 15:08
浏览 1408
评论(0)
分类:编程语言

LucidGaze for Solr 搜索监测工具

博客分类：

solr

Solr Tomcat lucene Java Apache

LucidGaze for Solr 搜索监测工具 LucidGaze for Solr 是由 Lucid 开发的开源 solr 监测工具，提供快照、存储、交互视图、比较各种 solr 性能指标。包括： Record and graph metrics 捕获多种 handler 的每秒请求数（Capture requests-per-second ），如：StandardRequestHandler 捕获每个请求的处理时间（Capture processing time per request ）。 …… 现来试用下 1 ...

2010-11-14 22:56
浏览 1767
评论(0)
分类:编程语言

nutch累积式抓取

博客分类：

nutch

Tomcat 脚本 Apache

最近在网上查了好多关于nutch增量式抓取的脚本，但是我觉得和nutch文档中所定义的增量式抓取有出入。应该算是累积式抓取。好了，首先说一下背景：前一段时间搭建好nutch环境后，接下来的工作就是在怎么样在服务器上进行累积式抓取，即在本地建立大型的索引数据库(有些问章提到分布式数据库，我不太明白)。那么毫无疑问，肯定是要用到nutch的底层命令，如：generate fetch updatedb 等。可是，如果要人工来做的话，很费时间也很费事，那么想到的办法就是写脚本，通过脚本来建立、维护、更新数据库。前提 :要保证有大量的URL数据，可以到DMO ...

2010-11-13 22:48
浏览 2359
评论(0)
分类:编程语言

提高Nutch局域网抓取的速度

博客分类：

nutch

XML Blog HTML

如果想要提高Nutch局域网抓取的速度，大家第一个想到肯定是-threads .但是那是错误的,如果只是单单增大线程数，那根本于事无补。通过下面这组测试，我们看看-threads 是否起作用。首先在本地apache2下建立两个网站，写一个简单的Rakefile来帮助完成测试。设定depth=3 ,下面是Rakefile的内容: threads=1 depth=3 task:default => [:crawl] task:crawl => [:clean] do t=Time.now sh "bin/nutch cra ...

2010-11-13 22:25
浏览 1609
评论(0)
分类:编程语言

nutch如何才能抓取到动态的url

博客分类：

nutch

PHP 正则表达式 CSS 多线程 Linux

nutch如何才能抓取到动态的url http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0 在运行的时候不会抓取到，分析了一下原因：主要在conf/crawl-urlfilter.txt. 分析：使用nutch默认的配置过滤� ...

2010-11-13 08:09
浏览 3071
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JVM配置参数中文说明

Hibernate 四种抓取策略

linux下wc命令使用详解---linux文件内容统计命令

提高Nutch局域网抓取的速度

nutch 过滤掉不正确的URL实现方法:

nutch中Nutch-defaul.xml相关配置

生产者-消费者-BlockingQueue

nutch的核心流程分析

Java 代理模式与动态代理类

Nutch中文分词总结

开源压力测试工具Apache benchmarking

LucidGaze for Solr 搜索监测工具

nutch累积式抓取

提高Nutch局域网抓取的速度

nutch如何才能抓取到动态的url

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>