`
fwuwen
  • 浏览: 16328 次
  • 来自: 厦门
文章分类
社区版块
存档分类
最新评论
文章列表
      lucene从4.0开始就提供了多个打分模型,包括TF-IDF,BM25,DRF等。默认的实现还是基于经典的TFIDF模型。下面对solr edismax查询中涉及到的一些公式进行介绍。   tf(float freq):词频,freq为某个词在该文档的相应field中出现的次数, 默认为Math.sqrt(freq): idf(long docFreq, long numDocs):逆文档频数,docFreq为term总共在几个文档中出现,numDocs为文档总数.默认为(Math.log(numDocs/(double)(docFreq+1)) + 1.0) quer ...
solr4.2的update大致流程: execute--->RequestHandlerBase.handleRequest--->ContentStreamHandlerBase.handleRequestBody --->JavabinLoader.load-->JavaBinUpdateRequestCodec.StreamingUpdateHandler.update --->LogUpdateProcessor.processAdd --->DistributedUpdateProcessor.processAdd ...
      Avro提供了两种序列化的方式:       avro-specific:       和thrift一样可以通过idl方式生成代码,生成命令: java -jar avro-tools-1.7.4.jar compile schema data.avsc src/       avro-generic:      支持schema的动态加载,不需要重新编译就可以处理新的数据源         avro的数据类型:       基本类型:       null:                     no value       boolean:       ...
一.安装JMeter     在官网http://jmeter.apache.org/download_jmeter.cgi下载JMeter     直接解压JMeter安装包     Linux下运行 $JMETER_HOME/bin/jmeter.sh     Windows下运行  $JMETER_HOME /bin/jmeter.bat 启动图形界面   二.编写JMeter测试类     1.在Eclipse中建立java工程,加入jmeter的一些基础包ApacheJMeter_core.jar,ApacheJMeter_java.jar,这两个jar包在$JMET ...
  lucene4的一个很大的变化就是提供了可插拔的编码器架构,可以自行定义索引结构,包括词元,倒排列表,存储字段,词向量,已删除的文档,段信息,字段信息   关于codec: lucene4中已经提供了多个codec的实现 Lucene40, 默认编码器.Lucene40Codec Lucene3x, read-only, 可以用来读取采用3.x创建的索引,不能使用该编码器创建索引.Lucene3xCodec SimpleText, 采用明文的方式存储索引,适合用来学习,不建议在生产环境中使用. SimpleTextCodec Appending, 针对采用append写入 ...
      SolrCloud中采用了DistributedQueue来同步节点间的状态信息。SolrCloud中总共会在3个地方保存队列信息:  /overseer/queue:保存每个shard的配置信息,以及状态信息(recovering,recovery_failed,active,down,sync)  对应的生产者为:ZKController中的 ...
Global site tag (gtag.js) - Google Analytics