`
yuaqian2003
  • 浏览: 13710 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
  最近项目中碰到问题,发现在调用SolrIndexSearcher的 public TopFieldDocs search(Query query, Filter filter, int n,                              Sort sort) throws IOException; 和public DocSet getDocSet(Query query) throws IOException; 效果差别比较大;    查阅了代码发现在SolrIndexSearcher.getDocSet(Query query)中第一次搜索query时,内部实现是调用 get ...
    昨天在编写程序过程中碰到一个问题,分词组件在加载词典时(词典文件是以UTF-8格式保存的txt文件),词典里的第一个词却找不到;跟踪进去后发现在加载词典时,第一个词的长度莫名的变长了一位,当时以为是带有空格或换行符,加了trim操作和去换行符,测试后问题依旧;     后来在网上google了一下,最终发现问题是由于Utf-8编码格式的文件所导致,如果Utf-8的文件被记事本、DW工具编辑过,但没有注意处理的方式,那么会自动在Utf-8文件中添加BOM格式,以表示文件是Utf-8编码的文件。     unicode编码为65279的字符叫“ZERO WIDTH NO-BREAK S ...
1·关闭复合文件格式        调用setUseCompoundFile(false)可以关闭复合文件选项。生成复合文件将消耗更多的时间 2·优化索引其实就是将多个索引文件合并成单个文件的过程,为了减少索引文件的数量级,能在搜索时减少读取索引文件的时间进行的操作。 3·优化索引的最佳时机是在索引过程结束后,当确认在此一段时间不会对索引文件进行更改的时候,在索引过程中优化索引只会是优化操作消耗更过的时间 4·重用Document和Field实例        在Lucene2.3中,新增了一个方法setValue的方法,可以运行你改变字段的值。这样的好处是你可以在整个索引的过程中复用 ...
对于二叉树的遍历,很久没看了;目前只记得采用递归的方法来编码实现;前一阵子被人问到用非递归的方法实现先序遍历,当时没想出来,现在复习了之后写了下两种方式遍历实现的代码; package com.fishtour.research.rand; import java.util.Stack; /** 二叉树遍历 */ public class BinTree {      protected BTNode root;      public BinTree(BTNode root) {          this.root = root;      }      public BTNo ...
大数据量,海量数据 处理方法总结(转) 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结, ...
文/腾讯soso    邓大付   Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。   随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦Spider。两类Spider的不同之处在于,后者需要一个过滤器来过滤掉那些专门领域不要的Url。从架构上来讲,两类Spider通常都会采用分布式的架构。从技术实现上来说,Spi ...
在文本分类中,设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1, C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci ...
K-means聚类算法的一般步骤:     * 初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。     * 进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。     * 更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。     * 反复执行第二步和第三步直至满足中止条件。 具体实现代码如下: public class BasicKMeans implements Serializable{ /** * ...

KNN算法

文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。     KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。     该方法的不足之处是计算量较大,因为对每 ...
目前看到的比较全面的分类算法,总结的还不错. 2.4.1 主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同 ...
Global site tag (gtag.js) - Google Analytics