- 浏览: 92974 次
- 性别:
- 来自: 上海
最新评论
-
forever1220:
你好 请教你可以直接使用weka 对微博话题文本进行情感极性 ...
Weka初步 -
orange.lpai:
从情感分类一般有两种思维方式,一种是构造情感词库来分类;另一种 ...
Java自然语言处理 LingPipe -
申公子:
你好 请问lingpipe怎么做中文章正负面判定? 是不是做 ...
Java自然语言处理 LingPipe -
申公子:
你好 请问就lingpipe中文分词 情感分析方面的问题和你讨 ...
Lingpipe中的spell模块-搜索建议 -
nextw3:
应该说,和数据挖掘只粘一点边..
程序员应知 -- 如何分析海量数据
文章列表
Java中String类由于其特殊性(不变类),几乎是笔试面试中的必考题,当然有些题目其实没啥意思,不过关键是要通过题目掌握原理性的东西。下面六道题目,如果您全部做对了,且明白其所以然,那么Java中的关于String的笔试面试题应该难不到你了。也许您觉得polaris说的有点过了,然而彻底明白这些题目,对理解String类还是很有好处的。
写出下面各题的打印输出的结果:
1
public static void main(String[] args){
String a = "a1";
String b = "a"+ 1;
...
转载http://www.cnblogs.com/MicroTeam/archive/2010/12/03/1895071.html
在这个云计算热炒的时代,如果你没有处理过海量数据的话,你将不再是个合格的Coder。现在赶紧补补吧~
前一阵子分析了一个将近1TB的数据群(gz文件,压缩10%)。因为第一 ...
http://www.cnblogs.com/skynet/archive/2010/12/03/1895045.html 这篇博客最后写了5个规则,虽然简单,但是还是有些问题,在这里稍作说明。
【规则1】用malloc或new申请内存之后,应该立即检查指针值是否为NULL。防止使 用指针值为NULL的内存。
...
http://www.ibm.com/developerworks/cn/java/j-mahout/
http://xlvector.cn
https://groups.google.com/group/resys
著名博客
[url]Daniel Lemire http://www.daniel-lemire.com[/url]
[url]Greg Linden http://glinden.blogspot.com[/url]
[url]Daniel Tunkelang http://www.thenoisychannel.com[/url]
[url]Jeff Dalton http:/ ...
双数组TRIE树原理
原文名称:
An Efficient Digital Search Algorithm by Using a Double-Array Structure
作者:
JUN-ICHI AOE
译文:
使用双数组结构的一个高效的Digital Search算法
摘要:
本文介绍了一种新的内部(内部排序的内部,也就是在内存里)数组结构的digital search算法,叫做双数组,结合了数组存取的快速和链式存储的压缩。Digital search树的每一条弧在双数组中都可以以O(1)的时间复杂度计算得到;也就是说,查找一个key值最坏的时间复杂度是O(k),k是这个key值 ...
华科的一牛人写的非常清晰http://qun.qq.com/air/#9826518/bbs/view/cd/9/td/4/[aio]
一. 简单的说贝叶斯定理:
贝叶斯定理用数学的方法来解释生活中大家都知道的常识
形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理 ...
http://hi.baidu.com/buptshirley/blog/item/ac2cd72d476f26341f3089ad.html
堆和栈的区别
堆(Heap)栈(Stack)
一个由c/C++编译的程序占用的内存分为以下几个部分 :
1、栈区(stack)
—— 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。
2、堆区(heap)
—— 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收 。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。
3、全局区(静 ...
http://www.phpchina.com/?action-viewnews-itemid-37229
http://highscalability.com/blog/2010/9/11/googles-colossus-makes-search-real-time-by-dumping-mapreduce.html
这是西方教育的精髓,勇于创新,不断超越,追求差异与个性,这是与传统东方教育是相悖的...当facebook ,yahoo,阿里等竞争对手在MapReduce的研发大量投入时,当然还有IBM,MS,他们不会放弃!不管结局怎样,这是一个伟大决定!
转处百度NLP部门jijuhttp://super-jiju.spaces.live.com/?_c11_BlogPart_BlogPart=blogview&_c=BlogPart&partqs=amonth%3d12%26ayear%3d2008
1.integer = atoi( my_string.c_str() );
2.
#include <iostream>
#include <sstream>//用这个类;
int main()
{
using namespace std;
string s = "1234& ...
引用:http://www.cs.iastate.edu/~yasser/wlsvm/
Weka安装完成之后就可以在分类器里面选择libsvm,但是会提示找不到model。
这是因为weka并没有直接把svm的包整合进来(可能考虑到升级等情况),这时只需设置一下就可以像其他分类器一样使用libsvm了。
(1)下载WLSVM包,上面的引用地址页面里可以找到下载链接,把libsvm.jar 和wlsvm.jar 两个文件放到weka的安装目录下(我的是“C:\Program Files\Weka-3-7”)。
(2)打开RunWeka.ini,
把
cp=%CLASSPATH% ...
Mapreduce:
http://blog.csdn.net/zealotcat/archive/2010/01/08/5148091.aspx
http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx
GFS:
http://blog.csdn.net/xuleicsu/archive/2005/11/10/526386.aspx
BigTable:
http://blog.csdn.net/accesine960/archive/2006/02/09/595628.aspx
转载自http://blog.csdn.net/liwenjia1981/archive/2010/07/13/5731040.aspx
编程之美3.3
看完题后,毫无头绪
书上的解题思路很好,首先两个字符串的距离肯定是个可知数,必须小于两字符串之和。
可以通过删除操作将两个串都变成空串。
书上所示的递归方法,代码敲出来了,有点点不同
view plaincopy to clipboardprint?
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
...
转载自http://blog.csdn.net/anqiang1984/archive/2009/04/03/4045903.aspx
前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble(集成技术),总的来说,ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。简单我们可以通过两张图片来看看集成的效果
[img][/img]
图一为多个基分类器单独工作时的分类效果图。图二为集成分类器的分类效果。我们可以看到集成分类器的分类曲线明显会平滑的多。来个比喻,在一件事情的表决上面,一个人的意见与多个人的意见 ...
转载自http://blog.csdn.net/anqiang1984/archive/2009/04/01/4040571.aspx
从前年开始使用weka最数据挖掘方面的研究,到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结,我也想整理一下。因为网上的资料实在是太少,记得刚接手的时候,真是硬着头皮看代码。不过到现在看来,也积累了很多的代码了。希望能够在这里跟大家分享一下学习weka的乐趣与经验。
Weka是来之新西兰怀卡托大学的一款开源软件,主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖掘领域最好的开源软件了,当然国外还有其它一些组织维护的有自己的开源软件, ...
转自:http://anna-zr.iteye.com/blog/578938
http://blog.sina.com.cn/s/blog_591e979d0100kds1.html
上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下,由聚类算法来判别样本的类别的一种学习方 ...