- 浏览: 91113 次
- 性别:
- 来自: 湖南
最新评论
-
leibnitz:
你好,为什么在全网抓取时不需要执行dedup命令呢?
nutch全网爬行的底层命令 -
wanggang0323:
这个网页的抽取有进展了吗?是否可以交流一下。qq3928754 ...
模板抽取思路的分析
文章列表
nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。
其中一个地方,当然是搜索的索引路径了.
nutch-site.xml
<property>
<name>searcher.dir</name>
<value>F:\nutch\test</value>
</property>
另外一个地方就是
nutch-default.xml
<property>
<name>plugin.folders</name&g ...
- 2011-02-22 23:53
- 浏览 1438
- 评论(0)
今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:
http://wiki.apache.org/nutch/WritingPluginExample-0.9
这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上
view plaincopy to clipboardprint?
<meta name="recommended" content="plugins" />
<meta name="rec ...
- 2011-02-21 23:45
- 浏览 976
- 评论(0)
# 使用说明:在bin目录下建立 runbot.sh ,如果在window下执行的话,则使用 cygwin 来模拟使用
# bin/runbot.sh
# runbot script to run the Nutch bot for crawling and re-crawling.
# Usage: bin/runbot [safe]
# If executed in 'safe' mode, it doesn't delete the temporary
# directories generated during crawl. This might be helpfu ...
- 2011-02-21 23:41
- 浏览 1577
- 评论(0)
本文首先介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch
的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch
爬虫抓取的目标网站, ...
- 2011-02-21 23:39
- 浏览 1346
- 评论(0)
本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件
build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml
c)WEB-INF/classes/nutch-site.xml
然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来处理整个编译发布过程。
1)在src/plugin下面加入,analysis-zh和lib-paoding-analyzers目录。具体参见
E:\workspace\searchengi ...
- 2011-02-21 23:38
- 浏览 810
- 评论(0)
1:
Exception in thread "main" java.lang.NoClassDefFoundError
:
org/apache/commons/logging/LogFactory at
org.springframework.util.ClassUtils.<clinit>(ClassUtils.java:67)
at
org.springframework.core.io.DefaultResourceLoader.<init>(DefaultResourceLoader.java:52)
at
...
- 2010-09-07 19:02
- 浏览 1466
- 评论(0)
熟悉SQLSERVER2000的数据库管理员都知道,其DTS可以进行数据的导入导出,其实,我们也可以使用Transact
-
SQL语句进行导入导出操作。在Transact
-
SQL语句中,我们主要使用OpenDataSource函数、
OPENROWSET
函数,关于函数的详细说明,请参考SQL联机帮助。利用下述方法,可以十分容易地实现SQLSERVER、ACCESS、EXCEL数据转换,详细说明如下:
一、SQLSERVER和ACCESS的数据导入导出
常规的数据导入导出:
使用DTS向导迁移你的Access数据到SQLServer,你可以使用这些步骤:
○1在SQ ...
系统服务篇一0我顶 1. 服务名称:Alerter显示名称:Alerter服务描述:通知选定的用户和计算机管理警报。如果服务停止,使用管理警报的程序将不会收到它们。如果此服务被禁用,任何直接依赖它的服务都将不能启动。可执行文件路径:C:\WINDOWS\system32\svchost.exe -k LocalService其他补充:操作建议:停止并禁用
2. 服务名称:ALG显示名称:Application Layer Gateway Service服务描述:为应用程序级协议插件提供支持并启用网络/协议连接。如果此服务被禁用,任何依赖它的服务将无法启动。可执行文件路径:C:\WINDOW ...
- 2010-08-29 21:34
- 浏览 1367
- 评论(0)
public
String getHref(String src){
return
"<img src='image/reply/"
+ src.substring(
1
, src.length()-
1
) +
"'/>"
;
}
public
String replace(String str){
String regex=
"\\[[^\\s& ...
1.创建表:
a. 创建xs表中计算机专业学生的备份
Create table xs_jsj as select * from xs where zym=’计算机’;
b.完整的例子:
Create table test (xm char(20) not null,zy varchar(30) default (‘计算机’));
-- Create table
create table DEPT
(
DEPTNO NUMBER(2) not null,
DNAME VARCHAR2(14),
LOC VARCHAR2(13)
...
as
--查找用户所有表的游标
cursor cur_table is select table_name from user_tables;
--查找某张表所有约束的游标
cursor cur_cons (c_table varchar2) is select c.constraint_name,c.constraint_type,
c.search_condition from user_constraints c where c.table_name=c_table
and substr(c ...
eclipse tomcat部署web应用
一.下载 J2SDK下载 http://java.sun.com/j2se/1.4.2/download.html 下载版本是j2sdk-1_4_2_08 ECLIPSE下载 http://www.eclipse.org/downloads/index.php 下载版本是eclipse-SDK-3.0.2-win32 ECLIPSE 插件 ...
- 2010-08-08 17:05
- 浏览 2040
- 评论(0)
一:C# 连接SQL数据库
Data Source
=
myServerAddress;Initial Catalog
=
myDataBase;
User
Id
=
myUsername;Password
=
myPassword;
Data Source
=
190.190
.
200.100
,
1433
;Network Library
=
DBMSSOCN;Initial Catalog
=
myDataBase;
User
ID
=
myUsername;Password
=
myPassword;
Server ...
<!--
这是某个aspx页-->
.....
<%@RegisterSrc="TestControl.ascx"TagName="TestControl"TagPrefix="MyControl"%>
.....
<MyControl:TestControlID="TestControl1"runat="server"/>
.....
若TestControl.ascx控件中含有DoSome ...
摘要:在程序编制过程和数据汇总交换过程中,经常会碰到需要将其他人员在office办公环境下编制的文件数据内容导入oracle中的情况。目前程序开发者经常使用的方法有如下几种:1,使用oracle提供的导入工具sql*loader;2,使用plsql developer工具;3使用其他数据转移工具做中转站。下面我们采用实例的方式分别描述几种导入方式的优缺点及其操作步骤。假设‘e:\test.xls’文件中存在三列数据分别代表客户编号,客户名称和联系电话。其内容如下:10001 zjaxi01 13562485246 10002 zjaxi02 13562485247 10003 zjaxi03 ...
- 2010-08-08 17:00
- 浏览 1226
- 评论(0)