`
henry2009
  • 浏览: 93462 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
str = str.replaceAll("[\\pP‘’“”]", "");  Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。大写 P 表 ...
解决方法,在访问的url上加上提交参数tinyInt1isBit,spring就不会把tinyint转成boolean类型了 jdbc:mysql://localhost:3310/test?tinyInt1isBit=false  
近日公司开始改造旧有的搜索系统,用到solr4,而且本人关注IK分词器比较多。发现IK 2012对TokenizerFactory不支持,缺乏这个支持的话,有很多自定义配置功能用不上。 故开发此代码,兼容Solr4分词功能 代码测试可用   附件附上对IK2012代码的二次编译jar包   IKTokenizerFactory   package org.wltea.analyzer.henry; import java.io.IOException; import java.io.Reader; import java.util.Map; import or ...
工作忙了一大半,分析的结果不是很准。结果还是有偏差。 继续努力,来年,一定会做得更好!!
弄了一段时间语义挖掘,发现是件比较痛苦的事情,需要多了解国外的做法,结合中国人说话习惯,做改进。国内的论文不太敢看,假数据太多,不敢恭维。应该说,我这种初手不宜看国内论文太多,易被误导。还是老样子吧,努力恶补被遗忘的知识,积累经验。语义分析,经验很重要。

元旦前一天

手头上有很多事情要做,但是就是因为再过几个小时就下班了 一点心思都放不进去了~~
The GRAPH engine is a computation engine for handling hierarchies (trees) and graphs (friend-of-a-friend, etc) cleanly through standard SQL.   转至:http://openquery.com/graph/doc   估计这个引擎,对大型的数据分析和数据挖掘方面,会提供很好的服务机制和性能提升。   可以对数据节点进行权重设置,节点距离调整。 同时对于查询而言更是不一样,就如文章所说的: so (1,2) is not the ...
中文分词入门之最大匹配法扩展1     中文分词入门之最大匹配法扩展2  
  中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中 文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的 是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map 存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。   正向最大匹配法算法如下所示: (注:以上最大匹配算法图来自于詹 ...
$i = 0; $host_list = array('localhost','192.168.1.xx'); /* * First server */ foreach($host_list as $i=>$host){ $i++; /* Authentication type */ $cfg['Servers'][$i]['auth_type'] = 'cookie'; /* Server parameters */ //$cfg['Servers'][$i]['host'] = 'localhost'; $cfg['Servers'][$i]['host' ...
转自:http://www.oschina.net/news/12395/ibm-join-openjdk-effort?from=rss       多年缺席后,IBM现在加入甲骨文为首的开源OpenJDK的项目。OpenJDK 是一个开源Java平台的参考实现。 如今 IBM 终于也加入了这个项目,这是原来Sun公司无法做的事。甲骨文正在帮助巩固其作为Java社区的领导地位。 IBM公司新兴技术副总裁罗德史密斯称:尽管在商业领域上竞争激烈,但我们将一同推进Java技术水平的发展,为我们的客户开源开发提供一个真正的长期的Java技术的支持。       在加入OpenJDK以后,IBM还 ...
[文章作者:张宴 本文版本:v1.2 最后修改:2007.07.09 转载请注明出处:http://blog.s135.com ] 需求背景:    phpMyAdmin是一款不错的MySQL在线管理工具,但phpMyAdmin的cookie登录方式只能输入MySQL数据库的用户名和密码,而 想更改MySQL服务器地址和端口则须修改其配置文件config.default.php。当拥有多台数据库服务器,每台服务器又在不同端口启动了多个 MySQL服务,每次都修改配置文件就显得很麻烦,因此需要能够在登录界面直接输入MySQL服务器地址和端口的功能。 功能要求:   假设phpMyA ...
 每一个程序员都不可避免的遇到字符编码的问题,特别是做Web开发的程序员,“乱码问题”一直是让人头疼的问题,也许您已经很少遇到“乱码”问 题,然而,对解决乱码的方法的内在原理,您是否明白?本人作为一个程序员,在字符编码方面同样遇到不少问题,而且一直对各种编码懵懵懂懂、不清不楚;在工 作中也曾经遇到一个很烦人的编码问题。这两天在网上收集了大量编码方面的资料,对字符编码算是理解的比较清楚了。下面把我认为比较重要的知识点记录下来, 一方面方便以后复习;另一方面也希望给跟我一样懵懵懂懂的人一个参考。不对或不妥之处,请批评指正。   在此之前,先了解一些有用概念:“字符集”、“字符编码”和“内码 ...
今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。 下面就是我的笔记,主要用来整理自己的思路。但是,我尽量 ...
/** * * ANSI:        无格式定义; * Unicode:       前两个字节为FFFE * Unicode big endian: 前两字节为FEFF  * UTF-8:        前两字节为EFBB * @param file * @return */ public static String get_charset(File file) { String charset = "GBK"; byte[] first3Bytes = new byte[3]; ...
Global site tag (gtag.js) - Google Analytics