十亿条数据构建搜索服务 - ITeye问答

问答首页 → 移动开发技术

0 0

十亿条数据构建搜索服务5

请问各位大牛：
十亿级别数据如何构建搜索服务？
采用什么样的技术架构比较妥当？

Java 搜索引擎分布式

2012年7月22日 21:49

maxrocray
12
0 0 3

2个答案按时间排序按投票排序

0 0

如果是用java实现搜索的话，可以考虑下lucene

2012年7月23日 15:55

onlylau
618
1 2 47

添加评论

0 0

在搜索的字段上建立联合索引，精确匹配的话速度会更高，建议采用explain查看下sql的状态，尽量把索引使用上。

2012年7月23日 00:09

zyn010101
2795
2 3 156

添加评论

相关推荐

ElasticSearch+Spark 构建高相关性搜索服务，千人千面推荐系统: 在构建高相关性搜索服务时，Elasticsearch的角色是快速、高效地处理海量数据的检索请求，并通过丰富的查询语法和评分机制，实现精确的搜索结果排序。 **Spark：大数据处理框架** Apache Spark是一个通用的大数据...

计算机课程毕设：基于ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统.zip: 《构建高相关性搜索服务与千人千面推荐系统——基于ElasticSearch+Spark的实践》在现代互联网环境中，用户对于信息检索和个性化推荐的需求日益增长，这使得基于ElasticSearch和Spark构建高相关性搜索服务及千人...

基于ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统.zip: 《构建高相关性搜索服务与千人千面推荐系统：基于ElasticSearch+Spark的实践》在现代互联网环境中，用户对于个性化体验的需求日益增强，无论是搜索引擎还是电商平台，都需要提供高度相关的搜索结果以及个性化的...

16_分布式搜索引擎在几十亿数据量级的场景下如何优化查询性能？.zip: 分布式搜索引擎在处理几十亿数据量级的场景时，面临着巨大的挑战，主要集中在查询性能优化、数据分布与索引构建、负载均衡以及系统扩展性等方面。本文将深入探讨这些关键知识点。首先，对于查询性能优化，分布式...

京东亿级流量海量数据搜索架构.pdf: 京东亿级流量海量数据搜索架构主要关注的是如何处理大规模数据的高效检索问题，这在电商领域至关重要，因为搜索是用户获取商品信息的主要途径。京东的搜索系统经历了从简单到复杂、从非实时到实时、从集中式到分布式...

基于多种数据源的中文知识图谱构建方法研究_胡芳槐.caj: 知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作：1.充分利用...

基于ES构建贝壳找房搜索中台29.9.pdf: 该系统使用 21 套 ES 集群，300 个 ES 节点，1100 个索引，20 亿条数据，支持每天 1 亿次查询和 1 亿次写入。该系统的稳定性非常高，达到 99.99%。二、贝壳找房搜索中台的演化之路贝壳找房搜索中台的演化之路...

ElasticSearch+Spark 构建高匹配度搜索服务，个性化推荐系统源码: Elasticsearch 和 Spark 的结合是大数据领域中的强强联合，它们在构建高匹配度搜索服务和个性化推荐系统中发挥着关键作用。通过 Java 开发，我们可以利用这两个工具的强大功能，实现复杂的数据处理、搜索和推荐任务...

eBay技术平台：掌控十亿级交易数据(Tony Ng).zip: 《eBay技术平台：掌控十亿级交易数据》是由Tony Ng分享的一份关于eBay如何处理海量交易数据的深入解析。这份资料详细介绍了eBay在处理大数据方面的技术和策略，为理解大规模在线交易平台背后的技术架构提供了宝贵的...

知识图谱数据构建的“硬骨头”，阿里工程师如何拿下？.pdf: 知识图谱数据构建的关键技术之一就是关系抽取，它直接决定了知识图谱可持续扩增的能力。关系抽取技术主要可以分为三类：有监督的学习方法、半监督的学习方法和无监督的学习方法。有监督的学习方法将关系抽取任务视...

基于MicrosoftSQLServer2000的全文搜索功能构建Web搜索应用程序.pdf: 根据所提供的文档信息，本文将详细介绍基于Microsoft SQL Server 2000全文搜索功能构建Web搜索应用程序的相关知识点。首先，全文搜索是数据库检索技术的一个重要分支。它主要用于在大量的非结构化文本数据中快速、...

07-基于阿里云构建数据仓库.rar: 阿里云构建数据仓库是一个复杂而全面的过程，涉及到多个关键技术和服务，旨在为企业提供高效、安全且可扩展的数据存储和分析能力。本资料包“07-基于阿里云构建数据仓库”可能涵盖以下关键知识点： 1. **MaxCompute...

毕业答辩-ASP.NET基于AjaxLucene构建搜索引擎的设计和实现(源代码论文).rar: 在本项目中，“ASP.NET基于AjaxLucene构建搜索引擎的设计和实现”展示了如何利用这两种技术来构建一个高效的搜索系统。首先，我们要理解ASP.NET的核心特性。它提供了强大的数据绑定、事件驱动模型、内置的安全性和...

《集体智慧编程》第四章搜索引擎数据集: 数据集的规模通常非常大，可能包含数十亿甚至数百亿个网页。接着，书中可能会介绍如何预处理这些网页数据。预处理包括分词、去除停用词、词干提取、词形还原等步骤，目的是将文本转换为可供搜索的形式。分词是将...

77万条金融问答数据集.rar: 总的来说，“77万条金融问答数据集”是一个丰富的信息宝库，对于金融研究、产品开发、客户服务等多方面都有重要价值。利用好这个数据集，能够深入理解金融行业的脉动，推动金融科技的进步，为用户提供更精准、更贴心...

从零开始搭建医药领域知识图谱实现智能问答与分析服务（含码源）：含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动: １、本项目完成了从无到有，以垂直网站为数据来源，构建起...4、本项目可以快速部署，数据已经放在data/medical.json当中，本项目的数据，在本项目中的部署上，可以遵循项目运行步骤，完成数据库搭建，并提供搜索服务。

浅谈数据挖掘技术在科技搜索服务中的应用.pdf: 文章描述强调了数据挖掘技术在科技搜索服务中的核心作用，并介绍了构建科技搜索引擎所需的一些关键技术环节。这包括对科技相关数据的采集、清洗、预处理、分析、建模等步骤，最终形成一个全面可靠的数据知识图谱，...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics