- 浏览: 8021 次
- 性别:
- 来自: 北京
最新评论
文章列表
查询参数简介(官方介绍http://wiki.apache.org/solr/CommonQueryParameters):• q (query) - 参数的主查询,默认是所有的“*:*”• fl (Field List) - 指定返回那些字段内容,用逗号或空格分隔多个。例如:“fl=id,name”意味着值列出id, name 字段• start - 返回记录的起始条数,默认是从0开始。此参数一般用于分页显示。• rows - ...
一、索引的建立分为三种方式:
1.两遍文档倒排法
第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等
第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行
2.排序倒排法
步骤为:
排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。
3.归并倒排法
二、索引更新
1.完全重建策略
2.再合并策略
3.原地更新策略
4.混合策略
网页自动分类是通过对某一特定的网页样本进行训练获得该类别网页的形式化描述,在此基础上训练分类器,进而对未知类别的网页进行类别判断的技术。
常用的分类器有SVM、朴素贝叶斯、KNN、Rocchio、中心分类算法CBC(Center Based Classification)
网页去重发生在网页下载后、索引建立前,典型的网页去重算法有SHINGLING、I-MATCH算法、Random Projection、SimHash算法以及SPOTSING算法
1.FP-growth
基本原理:Frequency Pattern-growth频繁模式增长算法,也是决策树算法,在产生候选项目集的时候采用模式增长的方法递归挖掘全部频繁模式,并且只需扫描事务数据库两次。它采用分而治之的思想:经过一片扫描后,将提供频繁项集的事务数据库压缩成一颗频繁模式树,但仍保留项集的关联信息。然后,将这种压缩后的事务数据库分成一组条件数据库,每个条件数据库关联一个频繁项集,并分别挖掘每一个条件数据库
2.WFP
基于加权的优化算法Weight Frequency Pattern是在FP-Growth算法的基础上发现频繁一项集,然后构建频繁模式增长的兄弟孩子树,通过遍历构造的 ...
五一假期,还好没有出去,到处都是堵啊。闲在看看分类、聚类算法、关联算法,现总结一下常见的聚类算法并进行MR分析。
1.K-means基本原理:首先随机的选择K个对象,每个对象代表一个簇的初始均值和中心;对剩余的每个对 ...
- 2014-05-03 16:27
- 浏览 1944
- 评论(0)
动态编程指的是改变经典编程方式(源文件-->编译-->二进制文件---->运行方式)的行为.
1.使用Compiler Api 创建类文件,同时允许在程序运行中编译源文件。在动态使用java类时可以启用诊断信息监听器和编译选项。
2.使用Instrumentation构建代理,可以用来监测JVM上的程序,一般是通过在执行某个类文件之前,对类文件的字节码适当修改来实现
3.使用javassist转化类文件。
javassist可以检查、编辑以及创建java二进制数据类。例如,可以清晰在类中统计某项方法耗时。
4用Spring替换类方法,在运行期间用一个类的方法替换另 ...
- 2014-05-02 17:15
- 浏览 313
- 评论(0)
--注下面的语句用到了表DROP TABLE IF EXISTS `a_sys_org`;CREATE TABLE `a_sys_org` ( `org_id` varchar(32) NOT NULL COMMENT '机构号', `org_name` varchar(256) NOT NULL COMMENT '机构名称', `parent_org_id` varchar(32) NOT NULL COMMENT '父机构号', PRIMARY KEY (`org_id`)
- 2014-04-12 12:16
- 浏览 592
- 评论(0)
标识接口是没有任何方法和属性的接口.它仅仅表明它的类属于一个特定的类型,供其他代码来测试允许做一些事情.
标识接口作用:简单形象的说就是给某个对象打个标(盖个戳),使对象拥有某个或某些特权。比如,你不能杀 ...
- 2014-04-09 11:48
- 浏览 590
- 评论(0)
Java 的 I/O 类库的基本架构
I/O 问题是任何编程语言都无法回避的问题,可以说 I/O 问题是整个人机交互的核心问题,因为 I/O 是机器获取和交换信息的主要渠道。在当今这个数据大爆炸时代,I/O 问题尤其突出,很容易成为一个性能瓶颈。正因如此,所以 Java 在 I/O 上也一直在做持续的优化,如从 1.4 开始引入了 NIO,提升了 I/O 的性能。关于 NIO 我们将在后面详细介绍。
Java 的 I/O 操作类在包 java.io 下,大概有将近 80 个类,但是这些类大概可以分成四组,分别是:
基于字节操作的 I/O 接口:InputStream 和 Outp ...
- 2013-12-18 13:32
- 浏览 300
- 评论(0)