- 浏览: 122091 次
- 性别:
- 来自: 上海
最新评论
-
hnraysir:
谢谢你的分享!对我有帮助!
JNI的某些数组和字符串类型转换(转) -
yejiurui:
楼主 你这篇文章简直是太好了,多谢啊
JNI的某些数组和字符串类型转换(转) -
kndroid:
Thanks
理解python的unicode字符串 -
lseeo:
非常不错!
全排列的Python实现 -
summerbell:
太冷清了。
你的pagerank心得呢???
Hello World
文章列表
1. Tika是什么
Tika是Lucene的一个子项目。
Tika是一个集合,用于处理各种格式化的文档,如doc(x), xls(x), ppt(x), jpg, pdf, etc. 它本身的core可以自动判别文件类型(AutoDetectParser类),也定义了统一的接口(the parse interface),外部接挂了各种 ...
数据库的操作越来越成为整个应用的性能瓶颈,这点对于Web应用尤其明显。关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构,对操作数据库时(尤其是查表时的SQL语句),我们都需要注意数据操作的性能。这里,我们不会讲过多的SQL语句的优化,而只是针对MySQL这一Web应用最多的数据库。希望下面的这些优化技巧对你有用。
1. 为查询缓存优化你的查询
大多数的MySQL服务器都开启了查询缓存。这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的。当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中,这样,后续 ...
PART I
MySql常用命令总结
MYSQL常用操作基本操作,以下都是MySQL5.0下测试通过首先说明下,记住在每个命令结束时加上;(分号)
1.导出整个数据库
mysqldump -u 用户名 -p --default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1)
mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql
2.导出一个表
mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名
mysqldump -u wcnc -p smgp_apps_wcnc ...
- 2009-11-22 18:45
- 浏览 1855
- 评论(0)
Google Wave到底是什么?
官方简介翻译:
Google Wave是一个实时交互的交流及协作在线工具,你可以用富文本格式、图片、视频、地图和更多的元素进行交流。每个Wave就是一段与多个参与者进行的对话。参与者指的是那些加入每个Wave讨论和参与内容协作的人,参与者在加入的Wave中,可以在任何时间、地点回复,他们还能编辑内容,并且添加更多的参与者进来。Wave还提供了回放功能,可以看到在加入的Wave中,什么时间做了什么改动。
另外大家还可以通过阿禅的文章《Google Wave试用体验与Google的野心》,系统了解下Google Wave的全貌,本文以实用操作为主,所以不做插图 ...
- 2009-11-14 00:36
- 浏览 1464
- 评论(0)
给定一个32位无符号数
求出从高位开始第一个不是0的字符位置
比如,0xFF的前导数就是0,0x01的前导数就是31
要求最简单的算法
对四位二进制数,最高位为1的有8~F,最高位为0次高位为1的有4~7,至高的第三位为1的是2~3,只有最后一位为1的只有1一个数
由此,对一个字节,8位二进制数,推知前导数映射:
(数,前导数)={(0x01~0x01->7),(0x02~0x03->6),(0x04~0x07->5),(0x08~0x0F->4),(0x10~0x1F->3),(0x20~0x3F->2),(0x40~0x7F->1),(0x80~ ...
短语的结构其实就是汉语句子结构的基本形态。因为,广义上,笔者认为一个普通的句子,就可以看成主谓结构的短语,比如百家争鸣,百花齐放。
短语主要分为下述几种:
①并列短语,由两个或两个以上的名词、动词、形容词并列组成的短语。如老师和同学、调查研究、培养和提高、万紫千红、理直气壮、丰功伟绩、是非黑白等。
②偏正短语,词和词按修饰关系构成的短语,由定语或状语加中心词组成。如我的老师、一个顾客、伟大的人民、世外桃源;小心观察、更加坚决、突然发现、非常壮观、相当迅速。
③动宾短语,词和词按照支配关系构成的短语,由动词和宾语组成。如吃晚饭、盖房子、歌唱祖国、顾全大局、关心集体、饱经风霜 ...
- 2009-11-10 22:34
- 浏览 1038
- 评论(0)
swap:交换两个数的值:
swap(int a, int b){
int temp = a;
a = b;
b = temp;
}
不用临时变量的版本:
swap(int a, int b){
a = a + b;
b= a - b;
a = a - b;
}
- 2009-10-31 17:32
- 浏览 1105
- 评论(0)
一个文本表现为由标点和文字组成的字符串,由字成词,由词生短语,由短语组成句子,进而是段落,节,篇章。要使计算机能够高效的处理真实文本,必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容,另一方面要对不同文档有区分能力。
向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:
文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。
项、特征项(term, feature t ...
- 2009-10-26 18:59
- 浏览 5165
- 评论(0)
什么是hadoop
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别 ...
- 2009-10-20 09:51
- 浏览 3632
- 评论(0)
C/C++ 为了照顾老一辈无产阶级革命家,他们的条件极其艰苦,键盘上缺了很多键,
无法输入下面九个字符:
# \ ^ [ ] { } | ~
因此推出了 trigraph,
简单的讲就是把上面的每个字符用其他三个字符来代替,
替换的规则如下:
#: ??=
\: ??/
^: ??'
[: ??(
]: ??)
{: ??<
}: ??>
|: ??!
~: ??-
比如说,下面这个 C++ 程序:
#include <iostream>
int main() {
std::cout << "[]&quo ...
- 2009-10-15 10:44
- 浏览 1329
- 评论(0)
数据挖掘领域十大经典算法
下面是参与评比的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。在我们学习数据挖掘时,可以以这18种算法为主线,如果能把每一种算法都弄懂,整个数据挖掘领域就掌握得差不多了。另外,也可以用这18种算法的熟悉程度来判断自己知识的掌握程度。
Classification
==============
#1. C4.5
Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.
Morgan Kaufmann Publishers Inc.
Google Scho ...
- 2009-09-30 11:09
- 浏览 1611
- 评论(0)
做presentation,除了内容的准备以外,我们还要注意对话题表达的把握,就如同下文中常用的一些串词,这些可以让我们做presentation时更加自然也更显得专业~同时提升陈述时的信心,留给自己下一步思考的时间,缓解自身压力,创造轻松的互动环境。
1. Right, let's get started.
好,让我们开始吧
2. Let me introduce myself.
作个自我介绍
3. I've divided my presentation into three main parts.
我的陈述主要分为三部分
4. Just to give you a br ...
- 2009-09-28 13:28
- 浏览 8251
- 评论(0)
Young Tableau问题的描述是这样的,一个由N个小方块组成的阵列(不一定要是矩形,可以是一个任意"光滑"且"单调"的组合),从1到N这N个数填入方块中,要求全部填满并且一个数只能填一个方格一次.并且满足,每个数的上方的数和左方的数比它大.求最后一共有多少种填法.比如一个4*4格子的正方形,1~16这16个数按照上述规则填入,那么一共多少种填法.
笔者根据理解,还是用程序实现了一下算了.不遍历输出所有种类的填法,只算数目而已.语言就用java,比较没挑战性,就练习一下.思想主要就一个递归:16肯定是占据左上角的格子,然后15就可以有两个选择了,对每 ...
- 2009-09-11 22:57
- 浏览 2121
- 评论(0)
s = u'ft,我'
print re.sub(ur'(?s)&#(\d+);', lambda x:unichr(int(x.group(1))), s)
执行结果:
引用ft,我
实际上,python的sub函数第二参数,即replacement,可以为一个函数.函数的输入就是成功匹配的match object, 输出,亦即返回值,就是用于替换的replacement.这样可根据具体每次不同的成功匹配对象字串,进行不同的替换.
除了上例,又如,定义替换函数:
def replacem(o):
if o.group(0)=='-': ...
- 2009-09-08 21:02
- 浏览 1594
- 评论(0)
# -*- coding:gb2312 -*-
if __name__=='__main__':
print "-------------code 1----------------"
a = "和谐b你b可爱女人"
print a
print a.find("你") #index=5,对于一般字符串,按照了
#指定的编码方式(这 ...
- 2009-09-08 15:02
- 浏览 6632
- 评论(1)