- 浏览: 586493 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (365)
- Tomcat调优 (2)
- Apache Http (20)
- Webserver安装 (5)
- Linux安装 (28)
- Linux常用命令 (17)
- C语言及网络编程 (10)
- 文件系统 (0)
- Lucene (12)
- Hadoop (9)
- FastDFS (8)
- 报表 (0)
- 性能测试 (1)
- JAVA (18)
- CSharp (3)
- C++ (38)
- BI (0)
- 数据挖掘 (0)
- 数据采集 (0)
- 网址收集整理 (3)
- Resin (0)
- JBoss (0)
- nginx (0)
- 数据结构 (1)
- 随记 (5)
- Katta (1)
- Shell (6)
- webservice (0)
- JBPM (2)
- JQuery (6)
- Flex (41)
- SSH (0)
- javascript (7)
- php (13)
- 数据库 (6)
- 搜索引擎排序 (2)
- LVS (3)
- solr (2)
- windows (1)
- mysql (3)
- 营销软件 (1)
- tfs (1)
- memcache (5)
- 分布式搜索 (3)
- 关注的博客 (1)
- Android (2)
- clucene (11)
- 综合 (1)
- c c++ 多线程 (6)
- Linux (1)
- 注册码 (1)
- 文件类型转换 (3)
- Linux 与 asp.net (2)
- perl (5)
- coreseek (1)
- 阅读器 (2)
- SEO (1)
- 励志 (1)
- 在线性能测试工具 (1)
- yii (7)
- 服务器监控 (1)
- 广告 (1)
- 代理服务 (5)
- zookeeper (8)
- 广告联盟 (0)
- 常用软件下载 (1)
- 架设自已的站点心得 (0)
最新评论
-
terry07:
java 7 用这个就可以了 Desktop desktop ...
关于java Runtime.getRunTime.exec(String command)的使用 -
HSINKING:
怎么设置打开的dos 窗口是指定的路径下
关于java调用bat文件,不打开窗口 -
liubang201010:
hyperic hq更多参考资料,请访问:http://www ...
hyperic-hq -
^=^:
STDIN_FILENO是unistd.h中定义的一个numb ...
深入理解dup和dup2的用法 -
antor:
留个记号,学习了
[转]用java流方式判断文件类型
索引模式(稳定,快速,可迅速恢同步,可迅速恢复性,同一结点间的数据也能讯速同步\)
0\适合对数据库
1\能正常索引数据
2\能把索引的索引数据增量传送给集群结点
3\当总索引系统出错时,能经过重启动,迅速恢复正常,并能把数据适时同步到集群结点
4\当集群结点主服务器出现异常时,能迅速探测到该结点中其他机器的可用性,并且临时指定该机器为该结点中主服务器,索引服务器要记录这种情况的异常情况,当原来主服器恢复后,索引数据能同步
<?xml version="1.0" encoding="UTF-8"?> <kelo.com> <Index.search-ref> <businessid>1</businessid> <description>架构上:一个满足分布式搜索的索引系统(假定有三个(可以线性增加)结点(每个结点也有三台(可以线性增加)机器组成,作为冗余)组成的一个分布搜索系统)</description> <!--2*60*1000 ms--> <intervaltime>120000</intervaltime> <recordnum>1000</recordnum> <cyclecount>20</cyclecount> <!-- 单位:ms --> <sleeptime>10000</sleeptime> <!--取不到数时,重试增量时间,单位:2*24*60*60*1000ms 两天 --> <increatment>172800000</increatment> <!--删除多少天前的数据,单位:小时 default 10*24 220--> <ndaybeferorenotetable>220</ndaybeferorenotetable> <clusters> <description>一个集群结点中允许多台服务器执行相同功能,并且必须指定一台主服务器</description> <cluster> <name>分布式搜索集群结点一</name> <node>1</node> <!--是否启用--> <use>1</use> <addresss> <address> <seq>1</seq> <ip>192.168.1.1</ip> <port>8089</port> <master>1</master> </address> <address> <seq>12</seq> <ip>192.168.1.2</ip> <port>8089</port> <master>0</master> </address> <address> <seq>3</seq> <ip>192.168.1.3</ip> <port>8089</port> <master>0</master> </address> </addresss> <!--数据是一个大概范围,如 0,0 表示不限ID范围--> <idrange>0,10000000</idrange> <!--可对idrange范围的值进行拆分,以加快索引速度--> <shard>10</shard> <!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始--> <indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update> <!--数据库连接相关--> <dbdata.business> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.business> <dbdata.indexsystem> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.indexsystem> <dbdata.log> <dbid>17</dbid> <dbname>日志相关</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>16</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.log> <keloIndex> <businessseq>1</businessseq> <businessname>业务名</businessname> <businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath> <businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename> <businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath> </keloIndex> </cluster> <cluster> <name>分布式搜索集群结点二</name> <node>2</node> <!--是否启用--> <use>1</use> <addresss> <address> <seq>1</seq> <ip>192.168.1.21</ip> <port>8089</port> <master>1</master> </address> <address> <seq>2</seq> <ip>192.168.1.22</ip> <port>8089</port> <master>0</master> </address> <address> <seq>3</seq> <ip>192.168.1.23</ip> <port>8089</port> <master>0</master> </address> </addresss> <idrange>10000000,20000000</idrange> <!--可对idrange范围的值进行拆分,以加快索引速度--> <shard>10</shard> <!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始--> <indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update> <!--数据库连接相关--> <dbdata.business> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.business> <dbdata.indexsystem> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.indexsystem> <dbdata.log> <dbid>17</dbid> <dbname>日志相关</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>16</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.log> <keloIndex> <businessseq>1</businessseq> <businessname>业务名</businessname> <businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath> <businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename> <businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath> </keloIndex> </cluster> <cluster> <name>分布式搜索集群结点三</name> <node>3</node> <!--是否启用--> <use>1</use> <addresss> <address> <seq>1</seq> <ip>192.168.1.41</ip> <port>8089</port> <master>1</master> </address> <address> <seq>2</seq> <ip>192.168.1.42</ip> <port>8089</port> <master>0</master> </address> <address> <seq>3</seq> <ip>192.168.1.43</ip> <port>8089</port> <master>0</master> </address> </addresss> <idrange>20000000,30000000</idrange> <!--可对idrange范围的值进行拆分,以加快索引速度--> <shard>10</shard> <!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始--> <indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update> <!--数据库连接相关--> <dbdata.business> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.business> <dbdata.indexsystem> <dbid>1</dbid> <dbname>测试</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>14</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.indexsystem> <dbdata.log> <dbid>17</dbid> <dbname>日志相关</dbname> <serverip>10.1.3.252</serverip> <db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver> <db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url> <set-tran-level>false</set-tran-level> <select-tran-level>1</select-tran-level> <update-tran-level>2</update-tran-level> <max-connections>16</max-connections> <db-user>xxx</db-user> <db-password>xxx</db-password> </dbdata.log> <keloIndex> <businessseq>1</businessseq> <businessname>业务名</businessname> <businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath> <businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename> <businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath> </keloIndex> </cluster> </clusters> <Index.search-ref> </kelo.com>
监控模式
0\适时找出总索引与集群结点的索引数据的情况
发表评论
-
关于搜索聊天记录
2011-11-24 11:14 1592奶酪(524300045) 16:33:15 语言都是一样 ... -
亿级数据的高并发通用搜索引擎架构设计[
2011-03-27 23:56 960from [url=http://blog.s135.com/ ... -
lucene2.32 and lucene3.02 搜索对比
2011-01-04 17:34 952lucene2.32 and lucene3.02 搜索对比 ... -
Lucene3.0索引格式相关网址
2010-10-29 11:14 1332【Lucene3.0 初窥】索引文件格式(1):预备知识 ... -
百度分词算法探秘 获取优质长尾流量
2010-10-19 13:25 1054注:本文对百度分词切词研究及如何获取优质长尾流量分析的很有道理 ... -
取重网记
2010-10-19 09:17 776搜索引擎重复网页发现技术分析 http://www.x ... -
Lucene2.32升级到3.0 前期记录点
2010-09-14 16:38 8332010.09.14 1\NIOFSDirectory 的使用 ... -
统计类优化算法初步
2010-09-01 17:54 992public class testcache { c ... -
【Lucene3.0 初窥】索引文件格式
2010-08-11 15:35 1056【Lucene3.0 初窥】索引文件格式(5):posting ... -
lucene搜索结果排序之Payload
2010-08-06 10:34 1671提高特定词汇的评分 利用 Payload 功能,可以提高文档 ... -
自定义排序<1>
2010-07-08 11:42 959说明: 用户会员登陆后,根据该会员属于的类别排序(主要表现 ...
相关推荐
一个常见的配置文件格式是INI文件,它以简单的键值对结构存储配置信息。Python标准库中的configparser模块为开发者提供了读取和写入INI格式配置文件的能力。 在本文中,我们将详细介绍如何使用Python来读取INI配置...
配置文件(通常是.ini或.cfg格式)则是一个简单的文本文件,用于存储程序运行时的非永久性设置,如用户首选项、窗口位置等。 源码示例中的核心知识点包括: 1. **配置文件读写**:易语言提供了读写配置文件的API,...
此时,一个高效的索引查看工具显得尤为重要,这就是我们要介绍的LukeAll 4.7.1。它是一款专门针对Lucene 4.7版本设计的索引文件查看和分析工具,帮助我们直观地洞察Lucene索引的内部结构。 LukeAll 4.7.1的核心功能...
- 首先,创建一个配置文件,例如`settings.cfg`。 - 使用`系统.打开文件对话框`让用户选择或指定配置文件。 - 对于组合框中的每个项目,可以通过循环遍历,获取每个项目的索引和文本,然后使用`文件写文本`写入...
- **文档(Document)**:在Lucene中,一个文档代表你要索引的信息单元,它可以包含多个字段(Field)。 - **字段(Field)**:字段是文档的组成部分,每个字段都有特定的类型(如文本、日期等),并可以被索引或...
一个简单的Logstash配置文件可能如下所示,它从一个日志文件中读取数据,解析日志,然后将结果发送到Elasticsearch: ```ruby input { file { path => ["/var/log/myapp/*.log"] start_position => "beginning" ...
- **创建文件夹**:在系统中(如D盘的WORK目录)创建一个专门用于存储Solr配置文件和数据的文件夹,例如`D:\WORK\SolrHome`。 - **复制配置文件**:将解压后的`apache-solr-1.4.1\example\solr`文件夹复制到...
以下是一个简单的Python FTP查找示例,使用`ftplib`库查找特定文件: ```python import ftplib def find_file_in_ftp(host, username, password, filename): try: ftp = ftplib.FTP(host) ftp.login(username, ...
- `.classpath` 和 `.project` 文件是 Eclipse IDE 的配置文件,它们包含了项目的类路径和工程设置。为了运行 Lucene 示例,首先需要在 Eclipse 中导入这些设置,创建一个 Java 项目,并将 Lucene 相关库(如 `libs...
本项目是一个简单的新闻搜索引擎,主要包括三个基础模块: 数据模块:爬取和保存数据,数据源为中国社会科学网 索引模块:构建和保存索引,这里的索引是指倒排索引 搜索模块:搜索主逻辑,采用 BM25 算法计算 query...
- 即使多列索引包含多个字段,但它仍然是一个单一的B-Tree索引,并不是每个字段都有单独的B-Tree索引。 #### 七、索引的成本与优化 - 索引本身是有成本的,它不仅会占用存储空间,而且在插入、删除和更新数据时也...
- 需要创建一个`IndexWriter`对象,指定索引存储的位置及索引的配置选项。 - 对于每个XML文档中的元素,可以创建一个`Document`对象,并将其添加到`IndexWriter`中。 3. **索引文档元素** - 在SAX处理器中,对于...
每个全文目录可以支持一个或多个表的索引需求,并且必须位于与 SQL Server 实例关联的本地硬盘上。 3. **断字符与词干分析器**:这两种工具用于对全文索引中的数据进行语言分析。断字符负责识别词的边界,即确定...
组合框是用户界面中常见的一种控件,它结合了列表框和文本输入框的功能,用户可以选择列表中的一个项目,或者输入自定义内容。在易语言中,组合框的使用通常涉及到数据的存储和读取,以便在程序运行的不同阶段保持...
通过深入研究这些文件,你可以了解如何将MFC和C++结合,以及如何构建和管理倒排索引来实现一个简单的搜索引擎。这个项目不仅涉及编程技术,还涵盖了信息检索和自然语言处理的基础概念,对于学习和提升这些技能非常有...
本文将通过一个名为"luceneTest"的简单示例,介绍如何进行Lucene的索引创建、操作和搜索。 首先,让我们理解Lucene的基本概念。Lucene是一个高性能、全文本检索库,它提供了索引和搜索文档的能力。索引过程将文本...
`read me.txt`通常是一个简单的文本文件,提供了关于压缩包内容的说明和指导,包括如何运行项目、注意事项以及可能遇到的问题和解决方法。 总的来说,这个示例提供了在.NET和SQL Server环境下实现全文索引的实际...
读写.csv配置文件,可读可写。读可以按A1 A2去读 也可以按[0][1]索引去读,方便开发。简单易用。
其基本原理在于通过将表中的数据进行映射,形成一个有序的数据结构,使得数据库能够根据索引快速定位到具体的行记录(RowID),从而大大提升了查询效率。 ### 知识点二:索引与SGA数据管理的关系 1. **索引的影响...