如下是我跟群友们的关于搜索分布式的讨论,我是天天向上
引用
mingyuan(307803179) 11:15:10
兄弟们
mingyuan(307803179) 11:15:37
有谁有solr分布式环境下进行索引更新的经验吗
mingyuan(307803179) 11:18:42
大家是按照什么办法查找一个文档所在的机器的啊
mingyuan(307803179) 11:18:58
有木有人
蛋定(258432673) 11:19:48
文档在那个机器上你不可以自己定义吗
壮志雄虎(342315465) 11:20:02
建索引之前就根据某一条件分配好 不就行了嘛
mingyuan(307803179) 11:20:35
我是弄的随机的。。
竹子(113127626) 11:21:17
悲剧
【提示:此用户正在使用WebQQ:http://web.qq.com/】
壮志雄虎(342315465) 11:22:03
分布式最好别用随机的啊 找一个条件 只要这个条件能平均分配就ok
蛋定(258432673) 11:22:05
从新建索引吧
mingyuan(307803179) 11:22:10
看来我要调整策略了。。。
壮志雄虎(342315465) 11:22:35
难道一个查询条件来 你每台机器都要检索?
mingyuan(307803179) 11:22:58
我原来想的是记录下来
蛋定(258432673) 11:23:25
当然要每台查询再合并啊,不然分布式有什么意义
壮志雄虎(342315465) 11:24:19
那也不能每个查询条件都要每台查询啊 能在一台机器上查当然要在一台机器上查了
mingyuan(307803179) 11:24:39
我现在一个机器上面多个core
蛋定(258432673) 11:24:52
你能保证别人查询的东西都在一台机器上?
mingyuan(307803179) 11:24:53
如果都在一个机器上查的话,磁盘跟不上
mingyuan(307803179) 11:25:43
不知道各位考虑这个因素了没
mingyuan(307803179) 11:26:03
另外啊,还回到刚才的那个话题
成都-天天向上(1047295342) 11:26:08
我认为的分布式如同凡客、京东等的买卖物品。应该有一个分发器,分发到不同的应用上,属于某个分类的就只在这个分类去处理,之后分发器统一返回。不知道我说清楚没有
壮志雄虎(342315465) 11:26:28
比方说我按时间条件分布索引的 查询条件来了 先判断时间条件 再确定查询哪个机器
成都-天天向上(1047295342) 11:27:19
分发条件很多,比如按ip进行分发
mingyuan(307803179) 11:27:39
我这边索引增加的比较频繁,如果按照时间的话可能不是太好使
mingyuan(307803179) 11:28:08
ip,hash我考虑过,但是遇到加机器的情况怎么办?
成都-天天向上(1047295342) 11:28:40
这个应该是做成配置项
成都-天天向上(1047295342) 11:29:19
不一定非要一层,你可以做成多层
mingyuan(307803179) 11:29:50
请天天向上兄细说一下
mingyuan(307803179) 11:31:32
做成配置项是指的分发条件?
成都-天天向上(1047295342) 11:31:33
比如说凡客卖衣服,如果在各个省会城市都有物流中心,那么就相当于1层的分布,如果说在德阳卖的很好,那么他可以在德阳增加一个物流,这样就可以再成都的基础上再增加一层分布
成都-天天向上(1047295342) 11:32:02
我们做软件也可以参考这种思路,我是这么构想的哈
mingyuan(307803179) 11:32:19
额。。这个你说的是查询吧?
成都-天天向上(1047295342) 11:32:34
索引和查询都一样
56源远流长(117405390) 11:32:55
分得这么细,维护烦死你
成都-天天向上(1047295342) 11:33:16
这个是系统大了之后考虑的
mingyuan(307803179) 11:34:05
暂时咱们没弄这么牛逼 呵呵 只是几台硝基漆
mingyuan(307803179) 11:34:08
小机器
成都-天天向上(1047295342) 11:34:27
如果在开始做的时候就这么考虑我认为也是可行的
成都-天天向上(1047295342) 11:34:37
你相当于是分索引目录嘛
成都-天天向上(1047295342) 11:35:12
这样有个好处是一个索引坏掉不会有太大的影响
成都-天天向上(1047295342) 11:35:42
大家可以考虑下,同时大家看看还有没有更好的办法
mingyuan(307803179) 11:38:00
是啊 目前就是这个架构,多个机器,每个机器多个目录,对应多个core
56源远流长(117405390) 11:38:22
细粒度要把握好。。。
你这样搞,看维护有多麻烦
升个级都费个半天
mingyuan(307803179) 11:39:15
现在面临的问题就是索引更新,想找一个比较靠谱的策略来分布文档,以便以后加机器的时候一个特定id的文档会被分布到同一台机器
mingyuan(307803179) 11:39:58
@56,你这样搞,看维护有多麻烦 这个是说我的那个方法吗
我用的solrj处理
成都-天天向上(1047295342) 11:41:45
分布策略根据项目不同肯定也不同。传统的像ip、知识点分类等都可行
这样做还有个好处是搜索结果更精准到位
mingyuan(307803179) 11:42:34
我只对不同类型的数据进行了分类
mingyuan(307803179) 11:42:34
我只对不同类型的数据进行了分类
同一类型的数据就没有再分类了
成都-天天向上(1047295342) 11:43:11
这个看项目了。原则就是这样
分享到:
相关推荐
教师应鼓励学生主动搜索和利用这些资源,为学生提供多样化的学习渠道,从而满足他们对于知识的个性化需求。 然而,分布式学习模式也面临着一些问题和挑战。首先,学生可能会因为缺乏有效的自我管理能力,在网络世界...
在这种算法中,粒子的分量根据方案的适应值大小以不同的概率取相应值,从而在迭代过程中体现出粒子的“思考”。自适应概率粒子群优化算法可以在有限的迭代次数内快速收敛到一个较优的解决方案,有效地满足调度方案...
“分布式思维”强调的是一种处理问题的思考方式,通过将复杂系统分解为若干个小的子系统,分别解决这些子系统的问题,然后再整合这些子系统的解来求解原问题的方法。在云计算数据挖掘平台设计中,分布式思维意味着...
本篇主要讨论的是分布式环境下的两种基本操作——convergecast(汇聚算法)和深度优先搜索(DFS)树的构造,并分析它们的时间复杂性。 首先,convergecast 算法在同步和异步模型下的时间复杂性分析: 1. **同步模型...
1. 易用性:导航应直观、简洁,避免用户思考如何操作。 2. 一致性:保持全站导航风格一致,提供稳定的用户体验。 3. 反馈:及时反馈用户操作状态,如加载进度、错误提示等。 4. 适应性:考虑不同设备和屏幕尺寸,...
阿里搜索中台的DevOps与AIOps的思考和实践是一篇深入探讨阿里搜索中台如何通过DevOps与AIOps提升系统效率、稳定性和智能化水平的文章。从中我们可以了解到一系列相关知识点,包括中台的概念、DevOps与AIOps在实践中...
,使用技术:spring 、springmvc、mybatis、maven、html5、jquery、freemarker、Redis(缓存服务器)、Solr(搜索引擎)、Dubbo(调用系统服务)、Nginx(web服务器)、FastDFS 毕业设计是高等教育阶段学生在完成...
2. **分布搜索算法**:为了高效地查找和定位网络中的资源和服务,P2P网络需要采用先进的分布搜索算法,如DHT(分布式哈希表)等。 3. **安全技术**:P2P网络面临着诸如身份验证、数据加密等一系列安全挑战,因此...
3. **共享业务层**:提供基础性的服务支持,如分布式数据层、数据分析服务、配置服务和数据搜索服务等。 4. **中间件服务**:包括消息队列服务(MQS)、缓存服务(OCS)等,作为连接不同服务的桥梁。 此外,淘宝还实现...
3. **体验分布式系统设计**:虽然项目本身可能没有实现分布式系统,但可以思考如何将项目扩展为分布式架构。 总结,Pokedex-Ajax 是一个结合了Ajax技术和分布式系统概念的教育项目,它提供了一个实用的平台,帮助...
6. **分布式搜索**:对于大型应用,可以通过配置实现Sphinx的分布式搜索,提高搜索性能。 **优化和维护** 为了保持良好的搜索性能,开发者需要关注索引大小、内存占用以及查询效率等方面。适时调整索引策略,避免...
### 大数据的认识与思考 #### 一、“大数据”的时代背景 **1.1 “大数据”的概念** “大数据”指的是那些无法用常规软件工具在任意时间内进行捕获、管理和处理的大量复杂数据集。它是一种需要采用新型处理模式的...
作者王宇是搜狗商业平台研发部的资深开发工程师,对分布式、大数据、云计算等领域有深入的研究和实践经验。 云平台设计选型 在云平台设计选型中,作者提到了搜狗商业云平台的特点,包括多服务个数、多迭代版本、...
《算法导论习题答案(第二版)》一书,由Philip Bille撰写,是对Thomas H....然而,读者也应意识到,这份文档可能存在错误,并不是绝对权威的解答,使用时应谨慎对待,结合其他资源和独立思考共同促进学习效果。
传统的P2P搜索算法如Chord、Kademlia等,采用了基于哈希环的分布式查找策略,通过节点ID的比较进行路由。这些算法在一定程度上解决了P2P网络中的寻址和路由问题,但在应对大规模网络和动态环境时,仍然存在查找效率...
标题和描述中提到的“造‘云’运动后的数据思考”和“云数据库!数据库新发展。”揭示了在云计算时代背景下,数据管理和数据库技术的新变革。随着云计算的普及,传统数据库面临了前所未有的挑战,尤其是在处理Web...
"大数据"的认识与思考 刘姝祎 目录 1"大数据"的时代背景 4 1.1"大数据"的概念 4 1.2"大数据"产生的背景 4 1.3"大数据"的特征 5 1.4"大数据"的发展阶段 5 1.5"大数据"带来的机遇 6 2"大数据"的关键技术 9 2.1"大数据...
为实现这些功能,大数据分析平台需要提供高性能的数据挖掘和分析服务,包括搜索、比对分析、关联分析、主题分析、报表生成等,以及通过大数据接口对接整合业务系统中的业务数据。同时,大数据计算分析的结果需要存储...
本文将探讨现代搜索引擎的主要索引组成部分,包括数据结构、特征提取、基础设施建设和分布式处理策略,以及针对新兴数据形式的信息组织思考。 **一、搜索引擎的发展** 早期的网络搜索主要依靠目录式分类,如Yahoo!...