[置顶] 海量数据库的查询优化及分页算法方案（转帖）

算法数据结构 SQL Server SQL Go

随着“金盾工程”建设的逐步深入和公安信息化的高速发展，公安计算机应用系统被广泛应用在各警种、各部门。与此同时，应用系统体系的核心、系统数据的存放地――数据库也随着实际应用而急剧膨胀，一些大规模的系统，如人口系统的数据甚至超过了1000万条，可谓海量。那么，如何实现快速地从这些超大容量的数据库中提取数据（查询）、分析、统计以及提取数据后进行数据分页已成为各地系统管理员和数据库管理员亟待解决的难题。在以下的文章中，我将以“办公自动化”系统为例，探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页。以下代码说明了我们实例中数据库的“红头文件” ...

2010-12-30 00:09
浏览 1528
评论(0)
分类:企业架构

[置顶] 总结一下SVN的用法

博客分类：

java基础

SVN PHP 工作 UP

SVN的中文帮助主题页：http://svndoc.iusesvn.com/svnbook/index.html 下面是一些我常用的命令在此总结一下： 1、将文件checkout到本地目录 svn checkout path（path是服务器上的目录）例如：svn checkout svn://192.168.1.1/pro/domain 简写：svn co 2、往版本 ...

2009-11-25 15:00
浏览 1665
评论(1)
分类:研发管理

[置顶] 提供一个版本的数字电视BS管理平台的演示demo(附上源码)

project演示

这个是一个演示的版本卫星推波服务BS管理平台的节目演示代码现在展示一个。。源码有30M jar包有70M 感觉比较大了不大容易上传如果有人想要的话提供一个email我发给你其实都是一无聊的东西呵呵补充：发了好久邮件都没发送成功给大家一个链接自己去取： http://download.csdn.net/source/1841274 没有jar包 jar图片已经在附件了

2009-11-24 15:31
浏览 1231
评论(15)
论坛回复 / 浏览 (2 / 3442)

[置顶] 路漫漫其修远兮吾将上下而求索

博客分类：

随笔心情

随笔心情

今天的心情非常差，开始博文了。。。现在才认识到我自己以后的路还长着呢。。。。。。

2009-11-24 15:12
浏览 1009
评论(0)

python 读取文件异常的解决

博客分类：

数据分析领域

f=open(sfile,'w') IOError: [Errno 22] invalid mode ('w') or filename: 'data/\xef\xbb\xbf507770149' 这个异常的解决方案不细说了直接代码 #sfile=_key.lstrip('\xef\xbb\xbf')

2012-11-30 16:22
浏览 1562
评论(0)
分类:移动开发

虚拟机安装centos6.3 sh配置

博客分类：

随笔心情

1 安装完毕后先关闭防火墙 /etc/init.d/iptables status/stop 2 open sshd cd /etc/init.d sshd stutas/start 3 ssh ip then exception log: ssh_exchange_identification: Connection closed by remote host so 解决办法： Way1: 目标计算机变更，把用户主目录下的.ssh/删除就可以了 Way2: 修改/etc/hosts.allow文件，加入 sshd:ALL。 4 it is oK!!

2012-09-02 00:22
浏览 1084
评论(0)
分类:操作系统

算法类简单总结待续

博客分类：

数据分析领域

Mine算法方法摘要：用网格判断数据的集中程度，集中程度意味着是否有关联关系方法具有一般性，即无论数据是怎样分布的，不限于特定的关联函数类型，此判断方法都是有效 MIC 如果变量对x,y存在函数关系，则当样本数增加时，MIC必然趋向于1 如果变量对x,y可以由参数方程c(t)=[x(t),y(t)]所表达的曲线描画，则当样本数增加时，MIC必然趋于1 如果变量对x,y在统计意义下互相独立，则当样本数增加时，MIC趋于0 Apriori算法挖掘数据集：购物篮数据 .挖掘目标：关联规则 .关联规则：牛奶=>鸡蛋【支持度=2%，置信度=60% ...

2012-06-21 11:09
浏览 1093
评论(0)
分类:数据库

【转】文本分类特征选择与特征权重计算的区别

博客分类：

算法篇
数据分析领域

在文本分类的过程中，特征（也可以简单的理解为“词”）从人类能够理解的形式转换为计算机能够理解的形式时，实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的，因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也是一个模式识别的问题，因此我想借用一个更直观的例子来说说特征选择和权重量化到底各自是什么东西，当然，一旦解释清楚，你马上就会觉得文本分类这东西实在白痴，实在没什么技术含量，你也就不会再继续看我的技术博客 ...

2012-05-24 15:58
浏览 1036
评论(0)
分类:编程语言

贝叶斯与向量机的理解

Bayes法 Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。另外，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h

2012-05-23 15:58
浏览 1108
评论(0)
分类:研发管理

one-versus-rest和one-versus-one的不同

博客分类：

算法篇
数据分析领域

SVM算法最初是为二值分类问题设计的，当处理多类问题时，就需要构造合适的多类分类器。目前，构造SVM多类分类器的方法主要有两类：一类是直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单，但其计算复杂度比较高，实现起来比较困难，只适合用于小型问题中；另一类是间接法，主要是通过组合多个二分类器来实现多分类器的构造，常见的方法有one-against-one和one-against-all两种。 a.一对多法（one-versus-rest,简称1-v-r SVMs, OVR SVMs）。训练时依次把 ...

2012-05-21 15:43
浏览 8282
评论(0)
分类:编程语言

中科院分词libICTCLAS2011部署日志

博客分类：

数据分析领域

首先系统装的是 CentOS 5 64bit # lsb_release -a  使用的分词是包 Linux-64bit-JNI 将原分词程序weiboDustAPI.jar包后放入web工程， Linux-64bit-JNI的源包全部放到tomcat /bin目录下运行发现java.lang.UnsatisfiedLinkError: no XXX in java.library.path错误执行操作 Step1:设置libICTCLAS2011.so所在的路径(本例子中的路径为/root/ICTCLAS2011 ...

2012-05-03 16:14
浏览 1496
评论(0)
分类:开源软件

oracle存储介绍

博客分类：

hadoop&&greenplum&&oracle存储介绍

数据库的存在一定需要有永久性存储方式和介质。Oracle自然也不例外，在Oracle10g中，有4种存储形式，分别是操作系统文件，裸分区，自动存储管理，集群系统OCFS（RAC）。下面分别说一下这4种存储形式。 1 操作系统文件。这种是大家最常用的方式了，也是非商业运行模式（比如开发或者开发阶段的测试环境）下最常用的形式。当大家安装Oracle的时候，如果选用了操作系统文件的存储形式，那么就会把Oracle的数据存储在操作系统中，以文件的形式存在。就好像我们玩某些单机版游戏，你的存档就是操作系统的文件一样。用文件形式存储数据，带来的优点就是易于数据库移动。比如你把Oracl ...

2012-03-08 17:50
浏览 1008
评论(0)
分类:操作系统

积分应用

博客分类：

算法篇

积分的应用微积分是高等数学的基础，但我们搞程序的平时使到微积分的时候实在少之又少，反正我大四以前根本没有用到微积分（编写什么插值求积分那种程序不算），果真如此吗？？？微积分的威力发挥在算法分析上， ...

2011-12-23 10:39
浏览 1141
评论(0)
分类:编程语言

千万级的数据，每条记录如何能够实时准确的知道自己的排名？

博客分类：

算法篇

需求：一个千万级数据量的服务，不停的插入和删除记录，每条记录需要知道自己的排名，比如SNS中的抢车位，如何让每个uid能够知道自己在所有人中的车总价排名？致命伤（cache无用论）有1000万个用户，试想排名第500� ...

2011-12-23 10:38
浏览 1934
评论(0)
分类:编程语言

JAVA 调用Web Service的方法

博客分类：

多线程

JAVA 调用Web Service的方法 1.使用HttpClient 用到的jar文件：commons-httpclient-3.1.jar 方法：预先定义好Soap请求数据，可以借助于XMLSpy Professional软件来做这一步生成。 String soapRequestData = "<?xml version=\"1.0\" encoding=\"utf-8\"?>" + "<soap12:Envelope xmlns:xsi=\"http://www.w ...

2011-11-22 09:48
浏览 1163
评论(1)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] 海量数据库的查询优化及分页算法方案（转帖）

[置顶] 总结一下SVN的用法

[置顶] 提供一个版本的数字电视BS管理平台的演示demo(附上源码)

[置顶] 路漫漫其修远兮吾将上下而求索

python 读取文件异常的解决

虚拟机安装centos6.3 sh配置

算法类简单总结待续

【转】文本分类特征选择与特征权重计算的区别

贝叶斯与向量机的理解

one-versus-rest和one-versus-one的不同

中科院分词libICTCLAS2011部署日志

oracle存储介绍

积分应用

千万级的数据，每条记录如何能够实时准确的知道自己的排名？

JAVA 调用Web Service的方法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>