`
thd52java
  • 浏览: 72084 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表

索引压缩

建立索引是搜索引擎核心技术之一,建立索引的目的是能够快速的响应用户的查询。搜索引擎最常用的索引数据结构是倒排文档,倒排文档的原理其实相当简单。     我们拿以下三篇文章作为代表来说明倒排文档,文章内容为 ...
1.Levenshtein distance(以下简称L氏距离)。 此距离由Levenshtein 于1965年定义,在这个定义体系中有三种原子操作:insertion,deletion,substitution(出处见论文《BINARY CODES CAPABLE OF CORRECTING,DELETIONS,INSERTIONS AND REVERSALS》); 2.Damerau,F,J distance(以下简称D氏距离)。此距离有Damerau于1964年定义,在这个定义体系中有四种原子操作:insertion,deletion,substitution,以及transposi ...

Solpe one

Slope One 算法试图同时满足这样的的 5 个目标: 易于实现和维护:普通工程师可以轻松解释所有的聚合数据,并且算法易于实现和测试。 运行时可更新的:新增一个评分项,应该对预测结果即时产生影响。 高效率的查询响应:快速的执行查询,可能需要付出更多的空间占用作为代价。 对初次访问者要求少:对于一个评分项目很少的用户,也应该可以获得有效的推荐。 合理的准确性:与最准确的方法相比,此方法应该是有竞争力的,准确性方面的微小增长不能以简单性和扩展性的大量牺牲为代价。 使用这个图可以简明扼要的说明一下 Slope One 算法。 User A 给 Item I 打分为 1;给 ...
      今天在创建webService时遇到了一下问题:       The service class "com.pera.spellcheck.SpellCheckSearcher" does not comply to one or more requirements of the JAX-RPC 1.1 specification, and may not deploy or function correctly. 原因:JAX-RPC1.1在处理SAOP与XML的映射时,不支持返回类型是List的类型。 解决:把List的返回类型改成数组的类型。如:Li ...
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Content-basedRecommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对 ...

矩阵分解

LU分解   一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。   即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以进行LU分解,但反之则不然。   目前,在任意域上一个方块矩阵可进行LU分解的充要条件已经被发现,这些充要条件可以用某些特定子矩阵的秩表示。用高斯消元法来得到LU分解的算法也可以扩张到任意域上。   任意矩阵A(不仅仅是方块矩阵)都可以进行LUP分解。其中的L和P矩阵是方阵,U矩阵则与 ...
在数理方程、概率论等学科经常遇到以下的含参变量的积分            ,  它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。  11.3.1  伽马函数 显然,我们应首先考虑伽马函数                                                    (3.1) 的收敛问题。式(3.1)右端的积分不仅是一个无穷积分,而且当时,

HBase表设计

1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据, 直到这 个region足够大了才进行切分。一种可以加快批量写入速 ...
二叉树        二叉查找树(BST)     笛卡尔树     MVP树     Top tree     T树   自平衡二叉查找树        AA树     AVL树     左倾红黑树     红黑树     替罪羊树     伸展树     树堆     节点大小  平衡树   B树        B+树     B*树     Bx树     UB树     2-3树     2-3-4树     (a,b)-树     Dancing tree     H树   Trie        后缀树

前缀树

在计算机科学中,trie,又称前缀树, 是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都 有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有 相关的值。   Trie 这个术语来自于 retrieval。根据词源学,trie 的发明者 Edward Fredkin 把它读作/ˈtriː/ "tree"。但是,其他作者把它读作 /ˈt
一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException {   return new DFSClient.DFSDataInputStream(         dfs.open(getPathName(f), bufferSize, verifyChecksum, statistics)); } ...

排序算法

排序算法有很多,所以在特定情景中使用哪一种算法很重要。为了选择合适的算法,可以按照建议的顺序考虑以下标准:   (1)执行时间   (2)存储空间   (3)编程     对于数据量较小的情形,(1)(2)差别不大,主要考虑(3);而对于数据量大的,(1)为首要。       主要排序法有:   一、冒泡(Bubble)排序——相邻交换   二、选择排序——每次最小/大排在相应的位置   三、插入排序——将下一个插入已排好的序列中   四、壳(Shell)排序——缩小增量   五、归并排序   六、快速排序   七、堆排序   八、拓扑排序   九、锦标赛排序   十、基数排序          ...
1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。 2、算法思想 实 际上,当我们要把传统 ...
Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。 Kmeans算法描述 输入:簇的数目k;包含n个对象的数据集D。 输出:k个簇的集合。 方法: 从D中任意选择k个对象作为初始簇中心; repeat; 根据簇中对象 ...
关联规则挖掘   (一)  Apriori    (二)  FilteredAssociator    (三)  FPGrowth    (四)  GeneralizedSequentislPatterns   (五)  PredictiveApriori   (六)  Tertius    Cluster    (一)  CLOPE   (二)  Cobweb    (三)  DBSCAN    (四)  EM   (五)  FarthestFrist   (六)  FilteredClusterer    (七)  Hierarch ...
Global site tag (gtag.js) - Google Analytics