- 浏览: 74268 次
- 性别:
- 来自: 北京
最新评论
-
虾米小兵:
这个脚本我没看到新产生的索引与原来的索引进行比较并去重的过程。 ...
nutch研究记录3(增量爬行) -
chenhong198986:
写的挺好!
多多学习,天天进步! -
小林信仁:
呵呵,还不错。
windows系统 3389远程监控登录信息(记录IP) -
jerry.chen:
望加QQ:519582864 想详细向你请教,谢谢!
nutch主流程代码阅读心得。 -
comsci:
非常不错的东西,通过这个文章,我们可以对搜索引擎的建立有更加深 ...
nutch主流程代码阅读心得。
文章列表
自动测试可以节省重复执行相同测试步骤的时间和精力。本文将介绍 jWebUnit,这是一组 Java 类,用于为 Web
应用程序开发测试用例。jWebUnit 是一个开源项目,可以在 BSD 许可下免费获得。我将介绍如何下载 jWebUnit 库、配置
Eclipse 平台来开发 jWebUnit 测试用例,以及如何构建一个示例测试用例。
jWebUnit 简介
jWebUnit 以 HttpUnit(一个进行 Web 应用程序自动测试的 Java 库)和 JUnit 单元测试框架为基础(请参阅 参考资料
)。
jWebUnit 提供了导航 Web 应用程序的高级
API, ...
Mustang 的脚本引擎
JSR 233
为 Java 设计了一套脚本语言 API。这一套 API 提供了在 Java
程序中调用各种脚本语言引擎的接口。任何实现了这一接口的脚本语言引擎都可以在 Java 程序中被调用。在 Mustang
的发行版本中包括了一个基于 Mozilla Rhino 的 JavaScript 脚本引擎。
Mozilla Rhino
Rhino 是一个纯 Java 的开源的 JavaScript 实现。他的名字来源于 O'Reilly 关于 JavaScript 的书的封面:
Rhino 项目可以追朔到 1997 年, ...
多多学习,天天进步!
- 博客分类:
- 人生×生活
和快乐的人在一起,嘴角就常带微笑
和快乐的人在一起,嘴角就常带微笑;和阳光的人在一起,心里就不会阴暗;和聪明的人在一起,做事就变机敏;和睿智的人在一起,遇事就不迷茫;和大方的人在一起,处事就不小气;和进取的人在一起,行动就不会落后;和勇敢的人在一起,遇见挑战就不会退缩。
如果你真爱一个人,就不要急于对他太好
如果你真爱一个人,就不要急于对他太好,你现在把一切都做到极致,以后怎么做呢,只能慢慢地不好了,就会让他对你越来越不如意。要让他知道你的缺与失,清
楚你的喜与悲,假如他能够包容你的不足,你再渐渐展示长处,这样的爱情才能有好结果。爱情里是不能仰视的,卑微的爱情多半会夭 ...
首先在database.php添加一组数据配置。。。
然后在模型中直接调用就行。。
如下图:
苗家牛憋(屎)汤独步天下
- 博客分类:
- 人生×生活
苗家牛憋汤独步天下
香臭本无定性,作为食物,只有好不好吃——这是“专栏作家之王”沈宏非对臭豆腐的评语。此君还说,臭豆腐的好吃,不只在臭,亦不仅在香,而在于香臭造成的高度对比,以及这种对比带来的 ...
这部分会不断总结,添加内容。
导出表到文件中:select * from samp_table into outfile “file_name”;
创建数据库:create database
bixuan character set utf8
正常时间格式查询时间戳:SELECT count(*) FROM `x_users` WHERE `reg_time` > UNIX_TIMESTAMP('2011-08-06')
1、前言
分页显示是一种非常常见的浏览和显示大量数据的方法,属于web编程中最常处理的事件之一。对于web编程的老手来说,编写这
种代码实在是和呼吸一样自然,但是对于初学者来说,常常对这个问题摸不着头绪,因此特地撰写此文对这个问题进行详细的讲解,力求让看完这篇文章的朋友在看
完以后对于分页显示的原理和实现方法有所了解。本文适合初学者阅读,所有示例代码均使用php编写。
2、原理
所谓分页显示,也就是将数据库中的结果集人为的分成一段一段的来显示,这里需要两个初始的参数:
每页多少条记录($PageSize)?
当前是第几页($CurrentPageID)?
现在只要再给 ...
数据初始
set RAILS_ENV=production
rake config/initializers/session_store.rb
rake db:migrate
rake redmine:load_default_data
安装过程可能出现一些问题,如下。
问题一、
大体提示:not rack 1.01 则安装。 gem install rack -v=1.0.1
问题二、
Mysql::Error: query: not connected: CREATE TABLE 'schema_migrations' ('version varcha ...
所以需求处理人员需要具备:
1:对产品的理解以及对对产品功能的熟悉。
2:对项目的理解以及对项目范围和边界的把握。
3:站在比用户更高的层次思考需求,因此你必须具备用户的业务知识。
4:善于引导用户,我们做项目目的是为给客户带来价值,而不是满足客户的需求。
5:分析用户:用户是技术型,管理型还是饭桶型的,技术性的喜欢抓细节,管理型的喜欢抓整体,饭桶型提不出什么需求,都会说界面不好看。
需求处理人员必须得清楚:
1:用户所说的需求不一定是用户想要的需求,描述和想象始终会存在差距。
2:用户的需求基本都是拍脑门说出来的,很少是冥思苦想了很久。
3:谁是真正能拍板的用户 ...
1,基于scim的google拼音输入法
http://bbs.lc0771.com/thread-218290-1-1.html
2, 安装QQ
http://forum.ubuntu.org.cn/viewtopic.php?f=121&t=283821&sid=7496802e87d052d732e4851e8a9e878e
3, lamp
http://wiki.ubuntu.org.cn/LAMP_%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE
4, eclip ...
1 从开始菜单打开apache配置文档,如图
2 修改网站根目录
查找DocumentRoot
有这么一行
DocumentRoot "C:/Program Files/Apache Software
Foundation/Apache2.2/htdocs"
这就是你网站的根目录,你可以修改,也可以用默认的.如果改,还要修改下面这项,否则
可能会出现 403 错误
查找 This should be changed to whatever you set
DocumentRoot to
在它下面两行有
<Directory "C:/ ...
作为众多创业企业成长企业进行融资的必备文件,其作用就如同预上市公司的招股说明书,是一份对融资公司
或项目进行陈述和剖析,便于潜在投资人对投资对象进行全面了解和初步考察的文本文件。近年来,创业融资的程序日益规范,作为投资公司进行项目审批的正式文
件之一,制作商业计划书已经成为越来越多创业者的“必修课程”。
作为一份标准性的文件,商业计划书有着大同小异的架构。但是,有的商业计划
书却能迅速抓住投资人目光,而有的计划书却只能以进入“回收站”作为使命的终结。客观的说,项目自身素质是最关键最核心的原因,但是,一个完美的、专业的
表现形式也同样重要,“酒香不怕巷子深”的逻辑在竞争激烈的现代商业 ...
得把这些凌乱记录下来,以免再次需要时找得头破血流。。。
虽然有点忙羊补牢的味道,但总比被入侵后无计可施,无处可跟踪好。。
通过对IP记录,接合系统登录日志分析,抽取入侵者IP后,就可以更好对IIS日志进行过滤分析了。
1,找一隐秘地方新建一个文件夹(避免灰客们乱窜发现日志),比如C:\windows\b_log(文件夹新建),在文件夹下新建一批处理文件3389log.bat,内容如下:
@echo off
date /t >>C:\WINDOWS\b_log\3389log.log
time /t >>C:\WINDOWS\b_log\3389log.l ...
发现一些无赖文件或者文件夹,排除系统正在使用的可能性后,那就通过cmd 命令强行删除掉。
“dir /x”命令:显示文件的“8.3格式的文件名”
“del /ah”命令:删除文件
“rd /s”命令:删除目录
例如e:\biaowen\school目录下有个无赖文件夹 -- html.
1,运行
2,输入cmd
3,命令 e: 回车进入e盘
4,cd biaowen\school
5,
dir /x 命令后会在html. 前面出现他的真实名称例如“HTML~1”
6,名称出现后就可以继续通过命令删除了 目录为:rd HTM ...
之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处
。也希望能认识跟多对此话题感兴趣的朋友。
主要类分析:一、org.apache.nutch.crawl.Injector:
1,注入url.txt
2,url标准化
3,拦截url,进行正则校验(regex-urlfilter.txt)
4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum ...