IndexTank, 一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts), categories (facets), faceted search, snippeting, custom scoring functions, suggest, and autocomplete。IndexTank的设计分离了相关性标记和文档内容,因为相关性标记的生命周期和文档本身是不一样的,特别是在用户创建的内 容的情况下,例如 分享次数,Like按钮,+1按钮等等。
- 浏览: 1613178 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1585)
- Http Web (18)
- Java (194)
- 操作系统 (2)
- 算法 (30)
- 计算机 (45)
- 程序 (2)
- 性能 (50)
- php (45)
- 测试 (12)
- 服务器 (14)
- Linux (42)
- 数据库 (14)
- 管理 (9)
- 网络 (3)
- 架构 (83)
- 安全 (2)
- 数据挖掘 (16)
- 分析 (9)
- 数据结构 (2)
- 互联网 (6)
- 网络安全 (1)
- 框架 (9)
- 视频 (2)
- 计算机,SEO (3)
- 搜索引擎 (31)
- SEO (18)
- UML (1)
- 工具使用 (2)
- Maven (41)
- 其他 (7)
- 面向对象 (5)
- 反射 (1)
- 设计模式 (6)
- 内存数据库 (2)
- NoSql (9)
- 缓存 (7)
- shell (9)
- IQ (1)
- 源码 (1)
- Js (23)
- HttpClient (2)
- excel (1)
- Spring (7)
- 调试 (4)
- mysql (18)
- Ajax (3)
- JQuery (9)
- Comet (1)
- 英文 (1)
- C# (1)
- HTML5 (3)
- Socket (2)
- 养生 (1)
- 原理 (2)
- 倒排索引 (4)
- 海量数据处理 (1)
- C (2)
- Git (59)
- SQL (3)
- LAMP (1)
- 优化 (2)
- Mongodb (20)
- JMS (1)
- Json (15)
- 定位 (2)
- Google地图 (1)
- memcached (10)
- 压测 (4)
- php.性能优化 (1)
- 励志 (1)
- Python (7)
- 排序 (3)
- 数学 (3)
- 投票算法 (2)
- 学习 (1)
- 跨站攻击 (1)
- 前端 (8)
- SuperFish (1)
- CSS (2)
- 评论挖掘分析 (1)
- Google (13)
- 关键词分析 (1)
- 地图 (1)
- Gzip (1)
- 压缩 (1)
- 爬虫 (13)
- 流量统计 (1)
- 采集 (1)
- 日志分析 (2)
- 浏览器兼容 (1)
- 图片搜索引擎技术 (2)
- 空间 (1)
- 用户体验 (7)
- 免费空间 (1)
- 社交 (2)
- 图片处理 (2)
- 前端工具 (1)
- 商业 (3)
- 淘宝 (3)
- 站内搜索 (1)
- 网站收藏 (1)
- 理论 (1)
- 数据仓库 (2)
- 抓包 (1)
- Hadoop (105)
- 大数据 (6)
- Lucene (34)
- Solr (31)
- Drupal (1)
- 集群 (2)
- Lu (2)
- Mac (4)
- 索引 (9)
- Session共享 (1)
- sorl (10)
- JVM (9)
- 编码 (1)
- taobao (14)
- TCP/IP (4)
- 你可能會感興趣 (3)
- 幽默笑话 (7)
- 服务器整合 (1)
- Nginx (9)
- SorlCloud (4)
- 分佈式搜索 (1)
- ElasticSearch (30)
- 網絡安全 (1)
- MapReduce (8)
- 相似度 (1)
- 數學 (1)
- Session (3)
- 依賴注入 (11)
- Nutch (8)
- 云计算 (6)
- 虚拟化 (3)
- 财务自由 (1)
- 开源 (23)
- Guice (1)
- 推荐系统 (2)
- 人工智能 (1)
- 环境 (2)
- Ucenter (1)
- Memcached-session-manager (1)
- Storm (54)
- wine (1)
- Ubuntu (23)
- Hbase (44)
- Google App Engine (1)
- 短信 (2)
- 矩阵 (1)
- MetaQ (34)
- GitHub &Git &私/公有库 (8)
- Zookeeper (28)
- Exception (24)
- 商务 (1)
- drcp (1)
- 加密&解密 (1)
- 代码自动生成 (1)
- rapid-framework (1)
- 二次开发 (1)
- Facebook (3)
- EhCache (1)
- OceanBase (1)
- Netlog (1)
- 大数据量 (2)
- 分布式 (3)
- 事物 (2)
- 事务 (2)
- JPA (2)
- 通讯 (1)
- math (1)
- Setting.xml (3)
- 络驱动器 (1)
- 挂载 (1)
- 代理 (0)
- 日本語の (1)
- 花生壳 (7)
- Windows (1)
- AWS (2)
- RPC (11)
- jar (2)
- 金融 (1)
- MongDB (2)
- Cygwin (1)
- Distribute (1)
- Cache (1)
- Gora (1)
- Spark (31)
- 内存计算 (1)
- Pig (2)
- Hive (21)
- Mahout (17)
- 机器学习 (34)
- Sqoop (1)
- ssh (1)
- Jstack (2)
- Business (1)
- MapReduce.Hadoop (1)
- monitor (1)
- Vi (1)
- 高并发 (6)
- 海量数据 (2)
- Yslow (4)
- Slf4j (1)
- Log4j (1)
- Unix (3)
- twitter (2)
- yotube (0)
- Map-Reduce (2)
- Streaming (1)
- VMware (1)
- 物联网 (1)
- YUI (1)
- LazyLoad (1)
- RocketMQ (17)
- WiKi (1)
- MQ (1)
- RabbitMQ (2)
- kafka (3)
- SSO (8)
- 单点登录 (2)
- Hash (4)
- Redis (20)
- Memcache (2)
- Jmeter (1)
- Tsung (1)
- ZeroMQ (1)
- 通信 (7)
- 开源日志分析 (1)
- HDFS (1)
- zero-copy (1)
- Zero Copy (1)
- Weka (1)
- I/O (1)
- NIO (13)
- 锁 (3)
- 创业 (11)
- 线程池 (1)
- 投资 (3)
- 池化技术 (4)
- 集合 (1)
- Mina (1)
- JSMVC (1)
- Powerdesigner (1)
- thrift (6)
- 性能,架构 (0)
- Web (3)
- Enum (1)
- Spring MVC (15)
- 拦截器 (1)
- Web前端 (1)
- 多线程 (1)
- Jetty (1)
- emacs (1)
- Cookie (2)
- 工具 (1)
- 分布式消息队列 (1)
- 项目管理 (2)
- github (21)
- 网盘 (1)
- 仓库 (3)
- Dropbox (2)
- Tsar (1)
- 监控 (3)
- Argo (2)
- Atmosphere (1)
- WebSocket (5)
- Node.js (6)
- Kraken (1)
- Cassandra (3)
- Voldemort (1)
- VoltDB (2)
- Netflix (2)
- Hystrix (1)
- 心理 (1)
- 用户分析 (1)
- 用户行为分析 (1)
- JFinal (1)
- J2EE (1)
- Lua (2)
- Velocity (1)
- Tomcat (3)
- 负载均衡 (1)
- Rest (2)
- SerfJ (1)
- Rest.li (1)
- KrakenJS (1)
- Web框架 (1)
- Jsp (2)
- 布局 (2)
- NowJs (1)
- WebSoket (1)
- MRUnit (1)
- CouchDB (1)
- Hiibari (1)
- Tiger (1)
- Ebot (1)
- 分布式爬虫 (1)
- Sphinx (1)
- Luke (1)
- Solandra (1)
- 搜素引擎 (1)
- mysqlcft (1)
- IndexTank (1)
- Erlang (1)
- BeansDB (3)
- Bitcask (2)
- Riak (2)
- Bitbucket (4)
- Bitbuket (1)
- Tokyo Cabinet (2)
- TokyoCabinet (2)
- Tokyokyrant (1)
- Tokyo Tyrant (1)
- Memcached协议 (1)
- Jcrop (1)
- Thead (1)
- 详设 (1)
- 问答 (2)
- ROM (1)
- 计算 (1)
- epoll (2)
- libevent (1)
- BTrace (3)
- cpu (2)
- mem (1)
- Java模板引擎 (1)
- 有趣 (1)
- Htools (1)
- linu (1)
- node (3)
- 虚拟主机 (1)
- 闭包 (1)
- 线程 (1)
- 阻塞 (1)
- LMAX (2)
- Jdon (1)
- 乐观锁 (1)
- Disruptor (9)
- 并发 (6)
- 为共享 (1)
- volatile (1)
- 伪共享 (1)
- Ringbuffer (5)
- i18n (2)
- rsync (1)
- 部署 (1)
- 压力测试 (1)
- ORM (2)
- N+1 (1)
- Http (1)
- web开发脚手架 (1)
- Mybatis (1)
- 国际化 (2)
- Spring data (1)
- R (4)
- 网络爬虫 (1)
- 条形码 (1)
- 等比例缩放 (1)
- java,面向接口 (1)
- 编程规范 (1)
- CAP (1)
- 论文 (1)
- 大数据处理 (1)
- Controller (3)
- CDN (2)
- 程序员 (1)
- Spring Boot (3)
- sar (1)
- 博弈论 (1)
- 经济 (1)
- Scrapy (1)
- Twistedm (1)
- cron (1)
- quartz (1)
- Debug (1)
- AVO (1)
- 跨语言 (1)
- 中间服务 (2)
- Dubbo (4)
- Yarn (1)
- Spring OSGI (1)
- bundle (1)
- OSGI (1)
- Spring-Boot (1)
- CA证书 (1)
- SSL (1)
- CAS (7)
- FusionCharts (5)
- 存储过程 (3)
- 日志 (2)
- OOP (2)
- CentOS (5)
- JSONP (2)
- 跨域 (5)
- P3P (1)
- Java Cas (1)
- CentOS 6.5 Released – Installation Guide with Screenshots (1)
- Android (1)
- 队列 (2)
- Multitail (1)
- Maout (1)
- nohup (1)
- AOP (1)
- 长连接 (3)
- 轮循 (2)
- 聊天室 (1)
- Zeus (1)
- LSM-Tree (1)
- Slope One (1)
- 协同过滤 (1)
- 服务中间件 (1)
- KeyMeans (1)
- Bitmap (1)
- 实时统计 (1)
- B-Tree+ (1)
- PageRank (1)
- 性能分析 (1)
- 性能测试 (1)
- CDH (10)
- 迭代计算 (1)
- Jubatus (1)
- Hadoop家族 (8)
- Cloudera (2)
- RHadoop (1)
- 广告定价 (1)
- 广告系统 (9)
- 广告系统,架构 (1)
- Tag推荐算法 (1)
- 相似度算法 (1)
- 页面重构 (2)
- 高性能 (6)
- Maven3 (3)
- Gradle (11)
- Apache (1)
- Java并发 (1)
- Java多进程 (1)
- Rails (1)
- Ruby (3)
- 系统架构 (1)
- 运维 (36)
- 网页设计 (1)
- TFS (0)
- 推荐引擎 (0)
- Tag提取算法 (1)
- 概率统计 (1)
- 自然语言处理 (2)
- 分词 (1)
- Ruby.Python (1)
- 语义相似度 (0)
- Chukwa (0)
- 日志收集系统 (0)
- Data Mining (4)
- 开放Api (1)
- Scala (28)
- Ganglia (2)
- mmap (1)
- 贝叶斯分类 (1)
- 运营 (1)
- Mdrill (1)
- Lambda (2)
- Netty (5)
- Java8 (1)
- Solr4 (1)
- Akka (12)
- 计算广告 (2)
- 聊天系统 (1)
- 服务发现 (1)
- 统计指标 (1)
- NLP (1)
- 深度学习 (0)
最新评论
-
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用 -
秦时明月黑:
Jetty 服务器架构分析 -
chenghaitao111111:
楼主什么时候把gecko源码分析一下呢,期待
MetaQ技术内幕——源码分析(转) -
qqggcc:
为什么还要写代码啊,如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote) -
yongdi2:
好厉害!求打包代码
Hadoop日志文件分析系统
发表评论
-
RESTful API 设计
2017-01-13 11:06 596目前互联网上充斥着大 ... -
ConcurrentModificationException and a HashMap
2017-01-09 19:59 523Iterator it = map.entrySet().i ... -
Java Class卸载与ClassLoader ,class热替换
2016-12-30 11:10 1819JVM中的Class只有满足以下三个条件,才能被GC回收, ... -
java:找出占用CPU资源最多的那个线程(HOW TO)
2016-10-21 13:11 0在这里对linux下、sun(oracle) JDK的线程 ... -
(转)一次让人难以忘怀的排查频繁Full GC过程
2016-10-21 13:08 528我们的Java应用因频繁FULL GC导致性能降低很多,经 ... -
(转)关于施用full gc频繁的分析及解决
2016-10-21 13:10 1051分析 当频繁full gc时,jstack打印出堆栈信息如 ... -
(转)How to Monitor Java Garbage Collection
2016-10-21 13:05 499This is the second article in ... -
(转)Understanding Java Garbage Collection
2016-10-21 13:04 460What are the benefits of knowi ... -
(转)How to Tune Java Garbage Collection
2016-10-21 13:02 600This is the third article in t ... -
高并发---限流
2016-08-16 11:20 1642在开发高并发系统时有三把利器用来保护系统:缓存、降级和限流。 ... -
java jvm 参数 -Xms -Xmx -Xmn -Xss 调优总结
2016-08-03 11:53 2820堆大小设置 JVM 中 ... -
Java注解与拦截器
2016-06-23 09:56 2641简介 Annotation(注解),也叫元数据。一种代码级 ... -
ExecutorCompletionService
2016-06-22 12:53 546当我们通过Executor提交一组并发执行的任务,并且希望在 ... -
java获得CPU使用率,内存使用率
2016-06-14 16:29 1754linux下Cpu获取方 ... -
CountDownLatch
2016-06-02 13:43 455Java的concurrent包里面的CountDownL ... -
Cron 表达式
2016-05-31 17:53 5691. cron表达式格式: {秒数} {分钟} {小时 ... -
maven 刷新
2015-06-11 11:35 902mvn clean install -e -U -e详细 ... -
java多线程总结五:线程池的原理及实现
2015-05-26 12:49 9061、线程池简介: ... -
BlockingQueue
2015-04-28 15:29 0前言: 在新增的Concurrent包中,B ... -
Java多线程-新特征-信号量Semaphore
2015-04-24 10:57 832简介信号量(Semaphore),有时被称为信号灯,是在多 ...
相关推荐
IndexTank, 一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts), categories (facets), faceted search, snippeting, custom scoring functions, suggest, and autocomplete。...
在IT领域,搜索引擎的设计与实现是一项复杂而关键的任务,尤其在Java编程环境下。这个"Java项目-搜索引擎的设计与实现.zip"文件显然包含了实现一个搜索引擎的相关资料,包括数据库设计和源代码。下面我们将深入探讨...
搜索引擎的工作原理主要基于倒排索引(Inverted Index)技术,这是一种高效的信息检索方法。 **倒排索引** 倒排索引是搜索引擎的核心组件,它的基本思想是将每个词在文档中的位置作为索引,从而实现快速定位到包含...
Lucene是一个流行的Java全文搜索引擎库,可以创建倒排索引,这是一种高效的搜索结构,将单词映射到包含它们的文档。 4. 查询处理:用户输入查询后,搜索引擎需要理解查询意图并生成匹配的文档列表。这涉及到查询...
java实验1-实现搜索引擎的倒排索引数据结构 实验1知识点: 集合类的使用如ArrayList,HashMap ◦对这些集合类的操作包括:遍历、添加、排序,得到集合的大小、判断集合里是否已存在指定元素 第三是熟悉对象的序列...
综上所述,"基于Java开发的聚合搜索引擎"项目涵盖了从网络爬虫、数据预处理到倒排索引构建、搜索算法实现、结果排序、用户界面设计以及分布式处理等多个层面的知识,全面展现了人工智能在搜索引擎中的实际应用。...
在Java中,我们可以使用Lucene这样的开源全文搜索引擎库来创建和管理索引。Lucene提供了一系列API用于文档分析、字段存储与检索、倒排索引等,帮助我们高效地建立文件信息的索引结构。 在文件信息的处理中,我们...
综上所述,本项目"人工智能-项目实践-搜索引擎-基于java开发的分布式搜索引擎"涵盖了从数据获取、处理、存储到检索的全过程,结合了Java编程和分布式计算技术,旨在构建一个高效、智能的搜索引擎系统。同时,项目也...
Java搜索引擎是一种利用Java编程语言构建的搜索工具,它整合了多个独立搜索引擎的结果,为用户提供更为全面和精准的搜索体验。元搜索引擎(Metasearch Engine)是这类系统的典型代表,它们不直接索引网页,而是通过...
在本项目实践中,我们主要关注的是“人工智能-项目实践-搜索引擎-基于java开发的招聘搜索引擎”。这个项目的核心是构建一个能够高效、精准地检索招聘信息的系统,它利用了人工智能技术来提升搜索效果,同时采用Java...
《Java项目实战:搜索引擎的设计与实现》是一份深入探讨Java技术在搜索引擎开发中的应用的实践教程。本项目提供了完整的源代码以及详细的部署说明,旨在帮助开发者掌握搜索引擎的关键技术和实际操作流程。 1. **...
首先,搜索引擎的基本原理包括信息抓取、预处理(如去除噪声、分词、建立索引)、查询处理(用户输入解析、查询扩展)和结果排序。在“网络小说搜索”这个特定场景中,我们需要关注如何有效地抓取和存储大量小说信息...
java源码源码关于 IndexTank 服务 IndexTank Service () 包含实现搜索即服务平台的源代码。 它包含允许管理用户帐户、服务器实例(worker)和索引实例...应用程序,支持每个帐户的索引管理、索引功能和搜索。 通过
在此,我们将深入探讨倒排索引的概念、其在Java中的实现以及在搜索引擎开发中的应用。 倒排索引是一种数据结构,广泛用于全文搜索引擎,其核心思想是将每个关键词映射到包含该词的文档集合。与传统的正向索引(按...