`
anna_zr
  • 浏览: 200459 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

大数据量的查询词缓存

阅读更多
问题描述:
对简易搜索引擎的查询关键字建立缓存,将所有查询词都保存下来,并记录词频,当超过存储容量时,会根据词频替换掉词频小的查询词。数据量大,要用到磁盘存储。

初步思路:
对查询词进行分类,对每个类别的查询词进行排序,得到top-k个放入内存缓存。

分类:用hash,不过要自己重写hashcode函数

是否要用到归并排序?

索引?

如何存储?
分享到:
评论
2 楼 lshmouse 2009-06-21  
今年百度之星复赛的第一题就是这个问题,不过限定内存1M
1 楼 wangichao 2009-06-17  
看过了 不错!但不是自己想要的哦!

现在的也在搞数据库的架构啊!很多东西要学习啊!还好javaeye是个不错的网站!

相关推荐

    lucene检索文档、检索大数据量数据

    综上所述,Lucene是处理大数据量文本检索的理想选择,其强大的索引和查询功能,以及对分布式环境的支持,使得它在各种信息检索应用中表现出色。通过深入理解和有效利用Lucene,开发者可以构建出高效、灵活的全文搜索...

    查询词融合方法、商品信息发布方法和搜索方法及系统.zip

    分布式检索架构如MapReduce、Hadoop等,可以解决大数据量的问题;并行计算和缓存策略能提升响应速度;而引入机器学习和深度学习技术,可以进一步提升系统的智能化程度,比如通过学习用户行为和反馈,自我优化搜索...

    ORACLE多表查询优化

    Oracle 多表查询优化需要考虑多个方面,包括选择合适的表名顺序、使用 Cache Buffer、语句共享、优化查询路径、避免多表连接查询、优化数据统计、选择合适的索引、优化数据库结构、使用 Materialized View、优化...

    包含在线查询与本地查询的android词典

    总结来说,开发一个包含在线查询与本地查询的Android词典应用,需要掌握Android UI设计、SQLite数据库操作、网络请求与响应处理、数据缓存策略以及可能的多语言翻译技术。通过这些技术的综合运用,可以构建出一款...

    5.诗词飞花令数据模型及脚本(20221114更新).zip.zip

    2. **数据库管理**:存储诗词数据可能需要用到数据库,如MySQL、SQLite或MongoDB等,用于高效地查询和管理大量诗词信息。 3. **脚本语言编程**:Python、JavaScript或Java等脚本语言通常用于编写这种类型的应用程序...

    Web搜索与Web缓存的若干关键问题研究.rar

    综上所述,Web搜索和Web缓存是互联网服务的两大支柱,它们通过复杂的算法和技术手段,确保了用户能够快速、准确地找到所需信息,并优化了网络资源的分配和使用。对这两个领域的深入研究和理解,对于提升整个网络生态...

    缩写词自动完成查询系统

    【标题】:“缩写词自动完成查询系统”是一种利用AJAX技术和Web服务实现高效、便捷的查询技术。这种系统主要用于帮助用户在输入缩写词时,自动提供可能的完整词汇或短语,提高输入效率和准确性。 【描述】:这个...

    iOS 汉英词典源码

    例如,汉字在内存中可能以UTF-16编码存储,但在网络传输时可能需要转化为UTF-8以减少数据量。源码中,开发者可能会使用Objective-C的`CFStringTransform`函数或Swift的`String.Encoding`类进行编码转换。 接着,...

    文本查询系统

    相关性评分可能基于TF-IDF(词频-逆文档频率)、BM25等算法,这些算法考虑了词频、文档长度、查询词出现的位置等因素,以评估查询词与文档的相关程度。 7. **用户交互** 好的文本查询系统还应具备良好的用户界面和...

    超大文本查询

    6. **近似查询**:在大数据量下,精确匹配可能代价过高,因此可能需要引入近似查询技术,如编辑距离或余弦相似度,来接受一定程度的误差。 7. **实时性与延迟**:在某些场景下,需要在短时间内返回结果,这就要求...

    ASP实例开发源码——英汉词典在线查询工具asp版.zip

    6. 性能优化:如果词典数据量大,可能需要考虑缓存策略,如使用Session或Application对象缓存最近查询的结果,减少不必要的数据库交互。 7. 安全性:考虑到ASP应用可能面临SQL注入等安全威胁,源码需要进行适当的...

    简易电子词典应用开发视频

    4. **用户界面设计**:UI设计应简洁直观,包含输入框供用户输入查询词,以及显示结果的区域。使用事件驱动编程来响应用户的查询操作,例如在Android中使用`EditText`控件和`OnClickListener`监听器。 5. **本地化与...

    Python-在Python中使用少量内存的快速词向量查询

    LMDB是一种轻量级、高性能、事务性的键值存储系统,适用于内存映射文件,这使得它非常适合用于低内存环境下的词向量查询。 首先,我们需要理解什么是词向量。词向量是自然语言处理中的重要概念,它将每个单词表示...

    词典检索系统

    4. 缓存技术:为了提高检索速度,系统可能会使用缓存来存储最近或最常访问的数据,减少数据库查询的次数。 5. 多语言支持:随着全球化的发展,词典检索系统往往需要支持多种语言,不仅限于英语,还包括汉语、法语、...

    基于ASP的汉英词典查询 v1.0 (包含405719条英汉词条).zip

    ASP脚本会处理这个请求,对输入进行合法性检查,并将查询词与词典数据库中的数据进行匹配。 2. **数据存储**:词典数据通常存储在数据库中,如SQL Server或Access等。ASP通过ADO(ActiveX Data Objects)组件与...

    Android 英文电子词典源码.zip

    7. **缓存策略**:为了提高性能,可能使用内存缓存(如LruCache)和/或磁盘缓存(如DiskLruCache)来存储常用数据或下载的网络资源。 8. **多语言支持**:作为英文词典,可能包含了对其他语言(如中文)的支持,这...

    基于ASP的诗词大全ASP查询.zip

    这包括减少不必要的数据库查询,使用存储过程提高数据访问效率,合理设计数据库索引,以及使用缓存技术等。同时,ASP还支持组件化开发,通过封装常用功能为自定义组件,可以降低代码复杂度,提高代码复用性。 ...

    英汉汉英查询词典易语言源码-易语言

    7. **程序优化**:为了提高用户体验,程序可能包含了性能优化的技巧,如缓存常用查询、预加载部分数据等。 8. **易语言编程基础**:通过阅读和理解源码,可以深入学习易语言的基础语法、函数调用、对象模型等编程...

    模糊查询源代码案例1

    而SQL的LIKE操作符或者全文索引配合通配符(%)也可以实现模糊查询,但可能在大数据量时性能不如Trie树。 接下来,让我们详细探讨这两种方法: 1. **Trie树**:Trie树是一种键树,也被称为“前缀树”或“字典树”...

Global site tag (gtag.js) - Google Analytics