- 浏览: 30841 次
- 性别:
- 来自: 北京
最近访客 更多访客>>
最新评论
-
Mydwr:
嗯真正学习
Heritrix初探 -
redwolf888:
受用。大数据量的确会有很多的问题,本来普通的可以解决某方法变得 ...
细节决定成败 -
changkunyang:
你好,我现在遇上一个问题。
我在windows下配置的tt客户 ...
TimesTen学习笔记1(转载ITPUB的帖子) -
dreambyheart:
在定义客户端的时候应该是已经设定到了 odbc的client里 ...
TimesTen学习笔记1(转载ITPUB的帖子) -
chen4059:
String URL = "jdbc:timeste ...
TimesTen学习笔记1(转载ITPUB的帖子)
文章列表
nutch 0.9在Windows下的安装
转载自:http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html
一、环境:
1.操作系统:windowsXp,windows2000+
2.java1.6,设置JAVA_HOME到环境变量
3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
4.nutch版本:0.9
5.tomcat:6.0
二、nutch的安装和配置:
1,安装C ...
- 2009-06-19 13:54
- 浏览 1426
- 评论(0)
转载自:http://jason823.iteye.com/blog/84206
一、框架介绍
公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。
目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相 ...
- 2009-06-19 09:45
- 浏览 1705
- 评论(1)
今天开始研究Lucene,有关Lucene的简单介绍我就不做介绍了,直接google一下就了解了,我根据的是《Lucene in Action》这本书来学习的。学习还在进行,把学习过程中的一些经验和体会写出来供和我一样的新手参考。
1:这本书对应的Lucene版本。
我一开始用最新的lucene-2.4.1,结果根据书中的例子出现了很多不一致的情况,后来换成了lucene-1.4.3就可以用了。
2:创建索引的 Indexer 类中,向Document中设置的filename和contents,一个是目录,一个是内容或者是文件,在Searcher类中检索索引的时候 Query que ...
- 2009-03-11 16:56
- 浏览 896
- 评论(0)
最近在给某单位做一个对外服务的项目,数据量很大,其中还有一些需要根据数据生成的大量的图片,一千万级别吧,在管理这些图片生成和存储的过程中遇到了些问题,其中越到最后错误确出在了一些细节上面上。
1:图片的放置问题,千万级别的图片怎么存放,怎么来分配目录。
2:图片的大小在普通硬盘和存储上所占用空间是不是会有区别,因为没有进行空间测试,所以后来不得不把所有的图片忍痛重新生成了一下。耗费了很长时间。
3:图片的细节问题,在最后的时候突然发现因为一个字段变小了,而图片中还是原来加了1位的数字,结果导致再一次的全部重来。
4:时间安排,一千万的图片从普通硬盘拷贝到存储的方式和时间都要详细考虑到,否则这也 ...
- 2009-02-21 15:20
- 浏览 800
- 评论(1)
原文地址:http://fengshen-xia.iteye.com/blog/296506
世界上最牛的逻辑
--------------------------------------------------------------------------------
大兔子病了,
二兔子瞧,
三兔子买药,
四兔子熬,
五兔子死了,
六兔子抬,
七兔子挖坑,
八兔子埋 ...
- 2008-12-27 11:51
- 浏览 839
- 评论(0)
原文地址:http://ifindit.blog.sohu.com/77367977.html
1.ttAdmin(命令)
功能:
指定内存加载策略
指定replication agent策略
启动或停止cache agent
如:
[timesten@rh44server ~]$ ttadmin -query tt_eservice;
RAM Residence Policy : inUse
Replication Agent Policy : manual
Replication Manually Started : False
Cache Agent Policy : manual
...
- 2008-12-23 16:19
- 浏览 4040
- 评论(0)
在创建一个DataStore的时候有很多个属性,自己对照着翻译了一下英文的文档,但是终究水平有限,后来从网上找到了一篇博客,有对这些属性的说明。所以,拿来主义了,谢谢那个兄弟的总结。
原文地址:http://blog.chinaunix.net/u2/64350/showart_504614.html
我将内容粘贴到了一个excel文档里面,可以供大家下载参考。
- 2008-12-23 15:50
- 浏览 1241
- 评论(0)
Q:输入表名+ '.' 后不自动谈出提示列名的做法:
A:在code assisant 里面把 automatically activated选项取消就行
取消掉之后,所有的自动弹出的都没有了
根据 http://www.itpub.net/thread-1100511-1-2.html 总结而来。
- 2008-12-15 21:26
- 浏览 1638
- 评论(0)
在看了相关的TimesTen的介绍后,我在Oracle的网站上下载了连接Oracle的文档(cacheconnect.pdf),然后按照文档里面的描述做了一个例子。
Oracle网站的“Oracle TimesTen 文档库”地址:http://www.oracle.com/technology/global/cn/documentation/timesten_doc.html
例子的实现过程可以参考文档,在此主要说明以下几个注意点:
1:创建的Oracle用户名和密码一定要和TimesTen创建的用户名和密码保持一致。
2:在建立DSN的时候,Database Character Set一定 ...
- 2008-12-12 09:40
- 浏览 2562
- 评论(0)
我最初的了解了TimesTen的一些知识是在ITPUT论坛里面。下面我把论坛里面的内容转贴到我这里,如果需要看原文,可以点击下面的链接。
timesten系列一:简介
http://www.itpub.net/thread-1034746-1-1.html
timesten系列二:如何安装timest ...
- 2008-12-12 09:25
- 浏览 6604
- 评论(3)
我在Windows下配置Timesten连接Oracle的时候执行下面的命令的时候出现了错误。
我的Oracle版本是9.2 ,并且也安装了客户端,用户也都建立好了并赋予了相应的权限。
Command> call ttCacheUidPwdSet('testuser','mypsswrd');
5105: OCI initialization failed: Error due to failure of ttOCIEnvNlsCreate (called from ttBDbEnvAlloc/ttBDbInit).
The command failed.
原因是 在建立DSN的时候 T ...
- 2008-12-12 09:15
- 浏览 2259
- 评论(0)
在配置Struts的时候出现了
java.lang.UnsupportedClassVersionError: Bad version number in .class file的异常
原因是web服务器TOMCAT用的JDK版本和程序的编译版本不一致造成的,检查Eclipse的设置:
1:Tomcat使用的JDK
Window -> Preferences -> MyEclipse -> Servers -> Tomcat -> Tomcat 6.X -> JDK -> "Tomcat JDK name"
2:Window ...
- 2008-12-04 21:54
- 浏览 2264
- 评论(0)
创建队列管理器
crtmqm –q QMgrName
-q是指创建缺省的队列管理器
删除队列管理器
dltmqm QmgrName
启动队列管理器
strmqm QmgrName
如果是启动默认的队列管理器,可以不带其名字
停止队列管理器
endmqm QmgrName 受控停止
endmqm –i QmgrName 立即停止
endmqm –p QmgrName 强制停止
显示队列管理器
dspmq –m QmgrName
运行MQ命令
runmqsc QmgrName
如果是默认队列管理器,可以不带其名字
往队列中放消息
amqsput Q ...
- 2008-12-04 10:54
- 浏览 1868
- 评论(0)
升级的过程只是将原来的rpm软件包卸载,安装正版的和注册的包就可以完成了,
不需要变动任何原来MQ已经有的队列管理器的配置。
用root账户登录进来
1:停止了连接MQ的服务
2:查看安装了MQ的系统里面的MQ有关的rpm包在系统里面的注册名称 用(rpm -q -a命令)
我自己的注册名字为下面的三个:
MQSeriesSamples-6.0.2-3
MQSeriesServer-6.0.2-3
MQSeriesRuntime-6.0.2-3
3:停止mq的侦听和队列管理器
停止侦听
endmqlsr -m XXXXXX :XXXXXX为队列管理器名称
停止队列管理器
...
- 2008-12-04 10:53
- 浏览 1915
- 评论(0)
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。
大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
自从jdk1.4推出java.util.regex包,就为我们提供了很好的JAVA正则表达式应用平台。
因为正则表达式 ...
- 2008-12-04 10:52
- 浏览 784
- 评论(0)