- 浏览: 2665424 次
- 来自: 杭州
文章分类
- 全部博客 (1188)
- webwork (4)
- 网摘 (18)
- java (103)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (14)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (7)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
很长一段时间我对全文搜索都有种错误的认识,认为学习全文搜索没有必要,全文搜索在小公司用不上,在大公司有专业人才。其实这种想法是非常错误的,现在的网站向社交关系发展,用户产生海量内容,如果没有全文搜索根本无法体现出UGD网站的价值。比如蘑菇街支持标签搜索,”瀑布排序“都只能通过搜索引擎实现。
全文搜索 的分类
1. 顺序扫描法
2. 逆向索引
全文搜索的处理步骤
1. 抓取数据
2. build index
3. 评分
4. 搜索
全文搜索的重要概念
term
postings
一个例子
通过逆向索引实现章鱼台的标签搜索
需求:
章鱼台需要支持对视频添加标签的功能。比如发布一首王菲的歌曲,可以添加王菲,MV这两个标签。通过搜索王菲,MV就可以找到这部视频。
实现方式:
table = {} def build(msg,docId): if table.has_key(msg): table[msg].extend([docId]) else: table[msg] = [docId] build('wangfei',1) build('mv',1) build('suiyanzi',2) build('mv',2) build('zhoujielun',3) build('mv',3) print table
index: {'wangfei': [1], 'mv': [1, 2, 3], 'suiyanzi': [2], 'zhoujielun': [3]}
这里的实现方式比较简单,没有支持or and等搜索方式,也没有考虑分词。
参考:http://blog.csdn.net/forfuture1978/article/details/4711308
发表评论
-
三种solr提交(commit)索引的方式
2014-03-01 13:40 20955三种solr提交索引的 ... -
solr build索引性能
2014-03-01 13:26 1553测试代码 package mytest; impo ... -
Solr性能优化之filterCache
2014-02-27 10:48 957原文:Solr性能优化之filterCache 什么是f ... -
SolrCore查询过程源码分析
2014-02-12 15:37 1258一.环境启动代码 SolrResourceLoader. ... -
通过设置SolrInputDocument 的boost来改变文档评分
2014-01-31 23:18 1555solr通过关键字查询后的文档得分最后要乘以这个boost因 ... -
Solr 使用 Log4j
2014-01-25 21:31 2407原文出处:http://blog.chenlb.com/20 ... -
solr基本概念
2014-01-25 20:49 1417原文:http://www.solrtutorial.com ... -
solr load比较高
2013-12-02 09:50 1075最近solr的load比较高,通过jstack查看: 写 ... -
Solr索引放入内存
2013-08-28 11:45 10033在一次技术群中,中听到一位sina的架构师,他们是采用基于l ... -
solr build索引遇到控制字符的错误
2013-08-23 15:12 635今天build solr 索引遇到如下错误: 发现提 ... -
solr 更新index的最佳实践
2013-08-22 15:24 1025其中重要一点是,solr不运行并发commit。 懒得翻 ... -
Scaling Solr(Solr的扩展)
2013-08-21 20:55 717Solr 的扩展 (Scaling) 当你的索 ... -
Lucene Scoring 评分机制
2013-08-21 20:52 730Lucene 评分体系/机制 ... -
solr build index例子
2013-08-20 14:24 877p = PeopleDO({'userid':101,'s ... -
solr build索引时commit与optimize的概念
2013-08-20 14:22 1960大家都知道,solr在提交索引的时候有commit和opt ... -
solr in action
2013-08-20 13:56 1246solr in action电子书 -
solr的函数查询_FunctionQuery_总结
2012-12-21 15:55 4218作用 函数查询的作用,是影响计算score的算法,并不替 ... -
solr java客户端build索引
2012-12-17 17:08 1102package com.duitang.views.tes ... -
Solr搜索的排序打分规则
2012-11-20 17:48 2469使用Solr搭建搜索引擎很容易,但是如何制定合理的打分规则(b ... -
Solrj
2012-11-20 14:17 1015solr 的java客户端可比python复杂一些,贴点代码: ...
相关推荐
学习全文检索总结的理论知识总结分享;学习全文检索总结的理论知识总结分享
在DB2中,加锁过程涉及到在锁列表中排队和搜索,而Oracle则简化为直接定位数据并加锁。Oracle通过数据块(block)中的ITL(Intent To Lock)事务列表来记录事务对行的修改,每行的头部有一个Lock byte标识锁定状态。...
信息检索基本理论是信息技术领域的重要组成部分,主要涉及如何有效地获取、组织和利用信息资源。这一领域的知识涵盖了信息的定义、信息源的种类、信息检索的原理和方法等多个方面。 首先,我们要理解信息的基本概念...
总结起来,Oracle数据库全文检索性能的研究旨在探讨如何在Oracle环境中高效地处理和检索文本数据。通过解锁用户、授权、选择合适的分词器和创建全文索引,可以实现高效的全文检索。同时,性能测试和分析揭示了影响...
### 技术团队培训:全文检索 #### 一、全文检索与蜘蛛爬虫机器人 - **全文检索**:指的...以上是对全文检索相关的基础知识和技术要点的总结,希望能帮助技术团队成员更好地理解和掌握全文检索的核心技术和应用场景。
全文检索系统是基于全文检索理论建立的软件系统,其基本功能包括建立索引、提供查询服务以及处理查询结果。全文检索方法分为按字检索和按词检索,前者对每个字建立索引,后者则针对语义单位——词建立索引。在中文...
总结,基于Lucene的全文检索系统提供了强大的文本搜索能力,通过分析、索引和搜索机制,使得信息检索变得高效和准确。对于开发者而言,理解并掌握Lucene的原理和实践,能有效提升其在信息检索领域的技术水平。
### 云栖专家带你技术进阶之全文检索和相似...总结来说,全文检索和相似搜索技术在云平台上的应用不仅提高了数据检索的效率和准确性,也为各种数据密集型应用提供了强大的支持,极大促进了企业应用和服务的创新与发展。
总结来说,这个项目融合了人工智能、TRIZ理论和Java技术,旨在创建一个能够深入理解和智能检索商业方法专利的系统。通过这样的系统,企业可以更有效地跟踪竞争对手的专利动态,发现新的商业机会,规避潜在的法律风险...
总结来说,信息检索的理论与基本方法是构建高效信息检索系统的基础,它涉及到信息的组织、描述和检索策略。理解并掌握这些理论和技术,对于信息管理和知识发现至关重要,尤其在当前信息爆炸的时代,能够帮助用户从...
传统的全文检索理论通过计算机程序扫描每一篇文章中的每一个词,并建立基于词汇的倒排索引文件。检索程序则根据检索词在文章中出现的频率以及在整篇文章中的概率,对包含这些检索词的文章进行排序,最后输出排序结果...
山东大学软件学院对信息检索知识点的总结,不仅为我们提供了一个系统的理论框架,而且为实际应用中的信息检索技术优化提供了指导。通过对这些知识点的学习和掌握,我们可以更有效地设计和实现信息检索系统,更好地...
通信网理论是研究信息的传输、交换、处理、存储、检索和显示的一门学科,它在现代信息技术中占有非常重要的地位。通信网络理论基础广泛,包含了从基础的电路理论、信号处理到复杂的网络协议和网络拓扑结构等各个方面...
本复习总结归纳旨在帮助读者深入理解和掌握数据库系统的相关概念、原理与技术。 1. 数据库系统基础 - 数据库(Database):存储数据的集合,具有组织结构。 - 数据模型:描述数据的结构和关系,如关系模型、网络...
总结来说,这份PPT不仅为读者提供了智能技术原理的全面视角,还着重探讨了模糊集理论在智能系统中的应用。通过深入分析模糊集理论,及其在智能技术中的应用,如推理方法、状态空间搜索策略等,这份资料旨在帮助读者...
总结起来,这组PPT资料为我们提供了一个全面的优化理论学习框架,从基础的搜索技术到高级的全局优化算法,涵盖了各种经典方法。掌握这些理论和算法,不仅可以提升我们的问题解决能力,也为解决现实世界中的复杂问题...
通过《信息检索学习总结大全 (4).docx》的学习,我对信息检索有了更深刻的认识和理解,以下是我对信息检索学习的总结与体会。 首先,信息检索是一门涉及广泛领域的技术。它不仅仅局限于使用搜索引擎进行关键词查询...
TRIZ理论的核心在于通过分析数以万计的专利,发现并总结出解决技术问题的规律和模式,以此来指导解决实际问题,促进产品和技术的创新。 TRIZ理论的基本内容包括: 1. 技术系统的演化规律:TRIZ理论认为技术系统会...
### 二八理论和长尾理论在SEO营销中的应用 #### 一、引言 在当前竞争激烈的互联网环境中,搜索引擎优化(SEO)已成为企业获取在线可见性和提高网站流量的重要手段之一。二八理论与长尾理论作为两种重要的经济概念...