索引压缩

博客分类：

搜索引擎

建立索引是搜索引擎核心技术之一，建立索引的目的是能够快速的响应用户的查询。搜索引擎最常用的索引数据结构是倒排文档，倒排文档的原理其实相当简单。我们拿以下三篇文章作为代表来说明倒排文档，文章内容为� ...

2013-11-16 15:44
浏览 1511
评论(0)
分类:编程语言

1.Levenshtein distance(以下简称L氏距离)。此距离由Levenshtein 于1965年定义，在这个定义体系中有三种原子操作：insertion,deletion,substitution（出处见论文《BINARY CODES CAPABLE OF CORRECTING,DELETIONS,INSERTIONS AND REVERSALS》）； 2.Damerau,F,J distance（以下简称D氏距离）。此距离有Damerau于1964年定义，在这个定义体系中有四种原子操作:insertion,deletion,substitution,以及transposi ...

2013-11-15 19:00
浏览 659
评论(0)
论坛回复 / 浏览 (0 / 1742)
分类:互联网

Solpe one

博客分类：

推荐系统

Slope One 算法试图同时满足这样的的 5 个目标：易于实现和维护：普通工程师可以轻松解释所有的聚合数据，并且算法易于实现和测试。运行时可更新的：新增一个评分项，应该对预测结果即时产生影响。高效率的查询响应：快速的执行查询，可能需要付出更多的空间占用作为代价。对初次访问者要求少：对于一个评分项目很少的用户，也应该可以获得有效的推荐。合理的准确性：与最准确的方法相比，此方法应该是有竞争力的，准确性方面的微小增长不能以简单性和扩展性的大量牺牲为代价。使用这个图可以简明扼要的说明一下 Slope One 算法。 User A 给 Item I 打分为 1；给 ...

2013-11-15 18:55
浏览 985
评论(0)
分类:互联网

创建WebService时遇到的问题

博客分类：

web

webservice

今天在创建webService时遇到了一下问题： The service class "com.pera.spellcheck.SpellCheckSearcher" does not comply to one or more requirements of the JAX-RPC 1.1 specification, and may not deploy or function correctly. 原因：JAX-RPC1.1在处理SAOP与XML的映射时，不支持返回类型是List的类型。解决：把List的返回类型改成数组的类型。如：Li ...

2013-11-15 14:41
浏览 1393
评论(0)
分类:互联网

矩阵分解

博客分类：

机器学习

LU分解一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵（或U矩阵）为单位三角矩阵，那么分解是唯一的。同理可知，矩阵的LDU可分解条件也相同，并且总是唯一的。即使矩阵不可逆，LU仍然可能存在。实际上，如果一个秩为k的矩阵的前k个顺序主子式不为零，那么它就可以进行LU分解，但反之则不然。目前，在任意域上一个方块矩阵可进行LU分解的充要条件已经被发现，这些充要条件可以用某些特定子矩阵的秩表示。用高斯消元法来得到LU分解的算法也可以扩张到任意域上。任意矩阵A（不仅仅是方块矩阵）都可以进行LUP分解。其中的L和P矩阵是方阵，U矩阵则与 ...

2013-11-14 20:58
浏览 2642
评论(0)
分类:互联网

伽马贝塔函数

博客分类：

机器学习

机器学习

在数理方程、概率论等学科经常遇到以下的含参变量的积分，它们依次为第一类和第二类欧拉（Euler 1707~1783 瑞士数学家）积分，或依次称为贝塔（Bata）函数和伽马（Gamma）函数，这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数显然，我们应首先考虑伽马函数（3.1）的收敛问题。式（3.1）右端的积分不仅是一个无穷积分，而且当时，

2013-11-13 09:56
浏览 2586
评论(0)
分类:互联网

HBase表设计

博客分类：

hbase

hbase

1. 表的设计 1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速� ...

2013-11-11 22:54
浏览 785
评论(0)
分类:互联网

树的种类

博客分类：

算法

算法数据结构

二叉树二叉查找树（BST）笛卡尔树 MVP树 Top tree T树自平衡二叉查找树 AA树 AVL树左倾红黑树红黑树替罪羊树伸展树树堆节点大小平衡树 B树 B+树 B*树 Bx树 UB树 2-3树 2-3-4树 (a,b)-树 Dancing tree H树 Trie 后缀树

2013-11-11 22:40
浏览 2631
评论(1)
分类:编程语言

前缀树

博客分类：

算法

算法

在计算机科学中，trie，又称前缀树，是一种有序树，用于保存关联数组，其中的键通常是字符串。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀，也就是这个节点对应的字符串，而根节点对应空字符串。一般情况下，不是所有的节点都有对应的值，只有叶子节点和部分内部节点所对应的键才有相关的值。 Trie 这个术语来自于 retrieval。根据词源学，trie 的发明者 Edward Fredkin 把它读作/ˈtriː/ "tree"。但是，其他作者把它读作 /ˈt

2013-11-11 22:36
浏览 724
评论(0)
论坛回复 / 浏览 (1 / 6250)
分类:互联网

HDFS读写数据

博客分类：

hadoop

hadoop hdfs

一、文件的打开 1.1、客户端 HDFS打开一个文件，需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize)，其实现为： public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream( dfs.open(getPathName(f), bufferSize, verifyChecksum, statistics)); } ...

2013-11-10 12:29
浏览 1993
评论(0)
分类:互联网

排序算法

博客分类：

算法

排序算法有很多，所以在特定情景中使用哪一种算法很重要。为了选择合适的算法，可以按照建议的顺序考虑以下标准：（1）执行时间（2）存储空间（3）编程对于数据量较小的情形，（1）（2）差别不大，主要考虑（3）；而对于数据量大的，（1）为首要。主要排序法有：一、冒泡（Bubble）排序——相邻交换二、选择排序——每次最小/大排在相应的位置三、插入排序——将下一个插入已排好的序列中四、壳（Shell）排序——缩小增量五、归并排序六、快速排序七、堆排序八、拓扑排序九、锦标赛排序十、基数排序 ...

2013-11-10 12:28
浏览 1308
评论(0)
分类:互联网

hadoop数据排序（一）

博客分类：

hadoop

hadoop

1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业。那么Terasort在Hadoop中是怎样实现的呢？本文主要从算法设计角度分析Terasort作业。 2、算法思想实际上，当我们要把传统� ...

2013-11-10 12:27
浏览 832
评论(0)
分类:互联网

Mahout系列之----kmeans 聚类

博客分类：

机器学习
MAHOUT

mahout 机器学习

Kmeans是最经典的聚类算法之一，它的优美简单、快速高效被广泛使用。 Kmeans算法描述输入：簇的数目k；包含n个对象的数据集D。输出：k个簇的集合。方法：从D中任意选择k个对象作为初始簇中心； repeat; 根据簇中对象� ...

2013-11-10 12:26
浏览 3251
评论(2)
分类:互联网

weka 算法大全

博客分类：

机器学习

weka 机器学习

关联规则挖掘（一） Apriori （二） FilteredAssociator （三） FPGrowth （四） GeneralizedSequentislPatterns （五） PredictiveApriori （六） Tertius Cluster （一） CLOPE （二） Cobweb （三） DBSCAN （四） EM （五） FarthestFrist （六） FilteredClusterer （七） Hierarch ...

2013-11-10 12:24
浏览 7116
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

索引压缩

编辑距离

Solpe one

创建WebService时遇到的问题

推荐系统概述

矩阵分解

伽马贝塔函数

HBase表设计

树的种类

前缀树

HDFS读写数据

排序算法

hadoop数据排序（一）

Mahout系列之----kmeans 聚类

weka 算法大全

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>