- 浏览: 586475 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (365)
- Tomcat调优 (2)
- Apache Http (20)
- Webserver安装 (5)
- Linux安装 (28)
- Linux常用命令 (17)
- C语言及网络编程 (10)
- 文件系统 (0)
- Lucene (12)
- Hadoop (9)
- FastDFS (8)
- 报表 (0)
- 性能测试 (1)
- JAVA (18)
- CSharp (3)
- C++ (38)
- BI (0)
- 数据挖掘 (0)
- 数据采集 (0)
- 网址收集整理 (3)
- Resin (0)
- JBoss (0)
- nginx (0)
- 数据结构 (1)
- 随记 (5)
- Katta (1)
- Shell (6)
- webservice (0)
- JBPM (2)
- JQuery (6)
- Flex (41)
- SSH (0)
- javascript (7)
- php (13)
- 数据库 (6)
- 搜索引擎排序 (2)
- LVS (3)
- solr (2)
- windows (1)
- mysql (3)
- 营销软件 (1)
- tfs (1)
- memcache (5)
- 分布式搜索 (3)
- 关注的博客 (1)
- Android (2)
- clucene (11)
- 综合 (1)
- c c++ 多线程 (6)
- Linux (1)
- 注册码 (1)
- 文件类型转换 (3)
- Linux 与 asp.net (2)
- perl (5)
- coreseek (1)
- 阅读器 (2)
- SEO (1)
- 励志 (1)
- 在线性能测试工具 (1)
- yii (7)
- 服务器监控 (1)
- 广告 (1)
- 代理服务 (5)
- zookeeper (8)
- 广告联盟 (0)
- 常用软件下载 (1)
- 架设自已的站点心得 (0)
最新评论
-
terry07:
java 7 用这个就可以了 Desktop desktop ...
关于java Runtime.getRunTime.exec(String command)的使用 -
HSINKING:
怎么设置打开的dos 窗口是指定的路径下
关于java调用bat文件,不打开窗口 -
liubang201010:
hyperic hq更多参考资料,请访问:http://www ...
hyperic-hq -
^=^:
STDIN_FILENO是unistd.h中定义的一个numb ...
深入理解dup和dup2的用法 -
antor:
留个记号,学习了
[转]用java流方式判断文件类型
索引模式(稳定,快速,可迅速恢同步,可迅速恢复性,同一结点间的数据也能讯速同步\)
0\适合对数据库
1\能正常索引数据
2\能把索引的索引数据增量传送给集群结点
3\当总索引系统出错时,能经过重启动,迅速恢复正常,并能把数据适时同步到集群结点
4\当集群结点主服务器出现异常时,能迅速探测到该结点中其他机器的可用性,并且临时指定该机器为该结点中主服务器,索引服务器要记录这种情况的异常情况,当原来主服器恢复后,索引数据能同步
<?xml version="1.0" encoding="UTF-8"?>
<dichan.com>
<Index.search-ref>
<businessid>1</businessid>
<description>架构上:一个满足分布式搜索的索引系统(假定有三个(可以线性增加)结点(每个结点也有三台(可以线性增加)机器组成,作为冗余)组成的一个分布搜索系统)</description>
<!--2*60*1000 ms-->
<intervaltime>120000</intervaltime>
<recordnum>1000</recordnum>
<cyclecount>20</cyclecount>
<!-- 单位:ms -->
<sleeptime>10000</sleeptime>
<!--取不到数时,重试增量时间,单位:2*24*60*60*1000ms 两天 -->
<increatment>172800000</increatment>
<!--删除多少天前的数据,单位:小时 default 10*24 220-->
<ndaybeferorenotetable>220</ndaybeferorenotetable>
<clusters>
<description>一个集群结点中允许多台服务器执行相同功能,并且必须指定一台主服务器</description>
<cluster>
<name>分布式搜索集群结点一</name>
<node>1</node>
<!--是否启用-->
<use>1</use>
<addresss>
<address>
<seq>1</seq>
<ip>192.168.1.1</ip>
<port>8089</port>
<master>1</master>
<weight>1</weight>
</address>
<address>
<seq>12</seq>
<ip>192.168.1.2</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
<address>
<seq>3</seq>
<ip>192.168.1.3</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
</addresss>
<!--数据是一个大概范围,如 0,0 表示不限ID范围-->
<idrange>0,10000000</idrange>
<!--可对idrange范围的值进行拆分,以加快索引速度-->
<shard>10</shard>
<!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始-->
<indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update>
<!--错开的时间10*60*1000-->
<indexmerge>600000</indexmerge>
<!--数据库连接相关-->
<dbdata.business>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.business>
<dbdata.indexsystem>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.indexsystem>
<dbdata.log>
<dbid>17</dbid>
<dbname>日志相关</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>16</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.log>
<dichanIndex>
<businessseq>1</businessseq>
<businessname>业务名</businessname>
<businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath>
<businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename>
<businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath>
</dichanIndex>
</cluster>
<cluster>
<name>分布式搜索集群结点二</name>
<node>2</node>
<!--是否启用-->
<use>1</use>
<addresss>
<address>
<seq>1</seq>
<ip>192.168.1.21</ip>
<port>8089</port>
<master>1</master>
<weight>1</weight>
</address>
<address>
<seq>2</seq>
<ip>192.168.1.22</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
<address>
<seq>3</seq>
<ip>192.168.1.23</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
</addresss>
<idrange>10000000,20000000</idrange>
<!--可对idrange范围的值进行拆分,以加快索引速度-->
<shard>10</shard>
<!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始-->
<indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update>
<!--数据库连接相关-->
<dbdata.business>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.business>
<dbdata.indexsystem>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.indexsystem>
<dbdata.log>
<dbid>17</dbid>
<dbname>日志相关</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>16</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.log>
<dichanIndex>
<businessseq>1</businessseq>
<businessname>业务名</businessname>
<businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath>
<businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename>
<businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath>
</dichanIndex>
</cluster>
<cluster>
<name>分布式搜索集群结点三</name>
<node>3</node>
<!--是否启用-->
<use>1</use>
<addresss>
<address>
<seq>1</seq>
<ip>192.168.1.41</ip>
<port>8089</port>
<master>1</master>
<weight>1</weight>
</address>
<address>
<seq>2</seq>
<ip>192.168.1.42</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
<address>
<seq>3</seq>
<ip>192.168.1.43</ip>
<port>8089</port>
<master>0</master>
<weight>1</weight>
</address>
</addresss>
<idrange>20000000,30000000</idrange>
<!--可对idrange范围的值进行拆分,以加快索引速度-->
<shard>10</shard>
<!--增量索引时,时间开始点,如果是0,表示从数据库中ID从小到大开始-->
<indexstarttime_update>2010-06-09 14:06:11.387</indexstarttime_update>
<!--数据库连接相关-->
<dbdata.business>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.business>
<dbdata.indexsystem>
<dbid>1</dbid>
<dbname>测试</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=xxxxxx;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>14</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.indexsystem>
<dbdata.log>
<dbid>17</dbid>
<dbname>日志相关</dbname>
<serverip>10.1.3.252</serverip>
<db-driver>com.microsoft.sqlserver.jdbc.SQLServerDriver</db-driver>
<db-url>jdbc:sqlserver://10.1.3.252;databaseName=数据库;SelectMethod=cursor</db-url>
<set-tran-level>false</set-tran-level>
<select-tran-level>1</select-tran-level>
<update-tran-level>2</update-tran-level>
<max-connections>16</max-connections>
<db-user>xxx</db-user>
<db-password>xxx</db-password>
</dbdata.log>
<dichanIndex>
<businessseq>1</businessseq>
<businessname>业务名</businessname>
<businessindexpath>F:\file\index\业务名代号\结点\业务表\index</businessindexpath>
<businesslogfilename>F:\file\index\业务名代号\结点\业务表\Log\index.txt</businesslogfilename>
<businesslogpath>F:\file\index\业务名代号\结点\业务表\Log</businesslogpath>
</dichanIndex>
</cluster>
</clusters>
<Index.search-ref>
</dichan.com>
监控模式
0\适时找出总索引与集群结点的索引数据的情况
- 分布式索引系统配置文件.rar (1.9 KB)
- 下载次数: 1
相关推荐
Hadoop通过其分布式文件系统HDFS和MapReduce编程模型,为构建分布式索引提供了基础设施。 在分布式索引构建中,常用的索引类型包括倒排索引和正排索引。倒排索引以关键词为索引项,列出包含该词的所有文档。而正排...
**core-site.xml** 配置HDFS默认文件系统和临时目录: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>io.file.buffer....
基于Redis的分布式配置管理中心.zip Maven配置 <dependency> <groupId>com.tinet</groupId> <artifactId>clink-config-client</artifactId> <version>1.0.0</version> </dependency> Spring配置文件 <bean class=...
HDFS是一种分布式文件系统,能够存储大量数据并跨多台机器进行分发。MapReduce则是一种编程模型,用于大规模数据集的并行处理。 在安装Hadoop之前,你需要确保你的Linux系统已经安装了Java开发环境(JDK)。Hadoop...
在Map函数中,通过文档解析器解析存储在HDFS文件系统的文档,然后创建索引并输出。而Reduce函数则对同一组内的文档索引进行归并处理,控制索引片的大小,并在达到阀值时输出独立的索引片,以此来保证索引的高效处理...
* HDFS是一个分布式文件系统,用于存储大量数据。 * MapReduce是一个编程模型和软件框架,用于处理大量数据。 * YARN是一个资源管理器,负责管理Hadoop集群中的资源。 Hadoop伪分布部署 伪分布部署是指在单个节点...
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式...综上所述,通过以上步骤可以成功配置一个Hadoop伪分布式环境。这种方式对于学习Hadoop的基本概念和技术非常有帮助,同时也适用于小规模的数据处理需求。
<br/>◆ 176.htm 你也可以YAI--VB5中Winsock控件的使用 <br/>◆ 177.htm 判断一个文件是否在IE的缓存中 <br/>◆ 178.htm 启动拨号网络中的连接 <br/>◆ 179.htm 浅谈HTTP协议(二)--返回值 <br/>◆ 180.htm 浅谈...
1. **hdfs-site.xml**:这是Hadoop分布式文件系统(HDFS)的主要配置文件。在多节点分布式集群中,master节点只运行NameNode,不包含DataNode。因此,我们需要在hdfs-site.xml中删除DataNode的相关配置,确保...
本文提出了一个基于分布式索引和目录聚合的分布式文件系统——超虚拟文件系统(Hypervirtual File System, HVFS),其目的是为了有效管理数十亿个小文件,并支持高并发、高吞吐和低延迟的访问。 ### 海量小文件存储...
Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 Hadoop集群由一个Master...
Beanstalkd分布式内存队列系统 的 spring boot starter 封装 部署 beanstalkd 服务 docker run -d -p 11300:11300 schickling/beanstalkd ② 引入依赖 <dependency> <groupId>com.pig4cloud.beanstalk</groupId> ...
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式...
随着大数据和云计算技术的快速发展,分布式文件系统作为存储和管理海量数据的关键技术之一,受到了越来越多的关注。Rust作为一种安全、高效且并发性能出色的编程语言,为构建高性能、高可靠性的分布式文件系统提供了...
阿里巴巴分布式数据库同步系统(解决中美异地机房) 环境搭建: 进入 $otter_home/lib 目录 执行:bash install.sh 打包: 进入$otter_home目录 执行:mvn clean install -Dmaven.test.skip -Denv=release 发布包位置...
在当今信息技术高速发展的背景下,分布式文件系统作为处理大规模数据存储和检索的重要技术,已经成为存储领域的核心技术之一。分布式文件系统允许多个客户端并发访问存储在同一物理或虚拟存储资源中的数据,它能够在...
在Ubuntu 14.04操作系统上配置Hadoop,无论是单机模式还是伪分布式模式,都是Hadoop初学者的重要步骤。Hadoop是一个开源的分布式计算框架,它允许在大量廉价硬件上处理大规模数据。这篇文章将详细介绍如何在Ubuntu...
分布式索引系统架构实践是推荐系统技术分享的重要组件之一。TRS(TRecall)是高性能、低成本、高时效性的分布式索引平台,提供推荐、类推荐场景下统一倒排召回服务,为业务提供一站式、托管式运维。 TRS架构设计的...