- 浏览: 80369 次
- 性别:
- 来自: 北京
-
最新评论
-
renhongchao:
你好,特征提取的时候,多分类下一个词对于分类的互信息,这个怎么 ...
信息论中的MI(互信息公式) -
xuzhibin:
这里也有一个识别率还可以正文提取算法,有兴趣的同学可以去看看: ...
聊聊网页正文提取 -
xiang861206:
用navigation.loadURI()加载时,要是http ...
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(1) -
yy8354:
呵呵 我是JAVA .NET C/C++都用
libsvm分类总结 -
drunkyong:
兄弟可以选择去博客园开博,大家都是搞.net的,这里.NET人 ...
libsvm分类总结
文章列表
以前的BLOG直接提供下载,现在都上传到网络硬盘了,这个速度还挺快的。以后陆续把之前的资源整理完了上传上去。就不另写帖子了,在这里置顶,不定期更新。 http://www.ziddu.com/download/5316375/计算机语言学-词法分析.rar.html http://www.ziddu.com/download/5316374/LuceneInAction.rar.html http://www.ziddu.com/download/5316228/大规模搜索引擎检索系统框架与实现要点.pdf.html http://www.ziddu.com/download/5316227/一 ...
因为没免费服务器了,发现这里也能穿10M以下的附件,省钱了,以后转移到这重新开始写BLOG,非原创类的文章,我会在以后慢慢转帖回来,恢复原来BLOG的所有内容
我是KING 原来看BLOG欢迎重新回来
现在域名也转这里了 www.likeshow.net blog.likeshow.net 可以用域名直接访问 以前那些没转过来的文章资料 可以通过搜索引擎的缓存访问
- 2009-04-09 09:10
- 浏览 1514
- 评论(0)
小问题记录
- 博客分类:
- JAVA乱码小case
启动resin时设置jdk编码格式,保证编码与预期一致,linux系统编码不顶用
-Dfile.encoding="UTF-8"
1、Nginx全部是纯C写的,如果编写的模块使用C++相关代码及函数,无法正确编译。
2、过多的警告也会导致编译失败,可以手工修改configure生成的Makefile 去掉相关的检查
3、在模块代码目录下的config文件中 CORE_LIBS="$CORE_LIBS -limage_seg -lmySegImg -lcxcore -lhighgui -lml -lcv -lcvaux -lmemcached" 该参数为指定模块编译时使用的动态链接库,但在用configure生成Makefile时需要增加--with-ld-opt=".L/home/yang ...
1、编译好的程序运行时找不到共享库文件(.so)文件问题原因
默认搜寻共享库文件为系统根相关目录,或者使用export指定shell相关参数改变搜寻路径(export LD_LIBRARY_PATH=./)
相关文章:http://blog.sina.com.cn/s/blog_690c46500100kxhd.html
2 ...
以前对于libsvm的应用主要当它是个机器学习的工具,单纯的当一个现成的分类器使用,主要研究的是如何选择合适的分类特征和做分类训练数据,对于参数的基本了解,但很少改动由于官方网站上也推荐文本分类使用线性分类,当初做文本分类精力完全在特征和样本筛选上了,最近由于样本和特征的稀疏数据分类问题,又一次在各种核函数和参数上下功夫妄求提升分类准确率,在此总结记录以防以后又忘记了
c g两个参数不用说了 这个完全靠测试没什么可说的
w参数很重要 在不同分类样本不均衡时 需要依赖此参数对对应的分类进行惩罚值调整 比如分类1有20个样本 而另一个分类2有200个样本 分类1的w设置1的话 另一个分类2的w最 ...
词语的通用度
所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词在1,2,......,k组的出现次数分别为n1,n2,...,nk,那么这个词的通用度定义为:
术语实际上就是某个学科领域所使用的“词语”,词语的通用度计算方法在某个独特的学科领域可以用作术 ...
- 2009-08-26 11:09
- 浏览 1878
- 评论(0)
//处理Transfer-Encoding="chunked"的头的压缩数据
private static byte[] doUnchunk(byte[] writeData)
{
try
{
if ((writeData == null) || (writeData.length == 0))
{
return new byte[0];
}
ByteArrayOutputStream stream1=new ByteArr ...
- 2009-08-14 17:43
- 浏览 1719
- 评论(0)
由于JAVA语言的数据类型都是有符号类型,而C# C++一般数据类型都是分有符号和无符号,因此在通信过程中传递的Byte[]无法直接转换成C#需要的类型,以前倒是没注意这些细节,因为一般用一种语言编程,大都有内置的转换方法。跨 ...
libsvm是著名的SVM开源组件,目前有JAVA.C/C++,.NET 等多个版本,本人使用的是2.82libsvm命名空间下主要使用类:svm_model 为模型类,通过训练或加载训练好的模型文件获得svm_parameter 为参数类,主要为支持向量机设定参数,具体参数如 ...
- 2009-04-15 12:16
- 浏览 3588
- 评论(0)
后缀树算是应用比较广泛的字符串处理算法了,压缩方面应用不少。这是我根据JAVA版本改写的版本。
- 2009-04-15 12:13
- 浏览 2146
- 评论(0)
很多看LUCENE IN ACTION的人,开始写代码最容易遇到的问题就是Field.Keyword Field.UnIndexed Field.UnStored Field.Text……都没了 因为那LUCENE高版本提供的已经有很大区别Field类已经没那些玩意,最近问的人多了,我就把我常用的个简单的转译函数贴这给大家参考 FieldType是个自定义的emnu类型 替代原有的Field.Keyword……之类 方便大家写代码的时候直接移植低版本LUCENE程序 如果不懂意义直接对照那书上的表看我这个函数也能明白新类型怎么用了public static Field IndexField(st ...
- 2009-04-15 12:08
- 浏览 1979
- 评论(0)
同一进程内线程的CPU占用
- 博客分类:
- 搜索引擎杂类
public ArrayList ShowProcessThreadList(Process pID){ArrayList List = new ArrayList();ProcessThreadCollection tList;tList = pID.Threads;TimeSpan totalThreads = new TimeSpan();foreach (ProcessThread tID in tList){totalThreads = totalThreads + tID.TotalProcessorTime;}foreach (ProcessThread tID in tList) ...
- 2009-04-09 09:28
- 浏览 2199
- 评论(0)
using System;
using System.Collections;
using System.Text;
using NUnit.Framework;
namespace OurAlgorithmCollections
{
public class BloomFilter
{
/// <summary>
/// BitArray用来替代内存块,在C/C++中可使用BITMAP替代
/// </summary>
private static BitArray bitArray = null;
private int size = -1;
/ ...
- 2009-04-09 09:27
- 浏览 3565
- 评论(1)
刚在群里有人突然提起这个,也就顺便写写大家暂且看之,所以算法都需要考虑应用场景,而我自己设计的算法也仅满足我当时的业务应用而已,不可直接照抄,否则后果自负。1、一般处理的方法(1)最原始的使用文本相似度 ...
- 2009-04-09 09:22
- 浏览 2795
- 评论(1)