- 浏览: 69985 次
- 性别:
- 来自: 深圳
最新评论
-
yucang52555:
yeyefengiswo 写道我手动添加了词库且有与defau ...
ansj_seg源码分析之用户自定义词性覆盖系统原有词性 -
yeyefengiswo:
大神,你出现下了,其他的词也可以吗?比如"教授&qu ...
ansj_seg源码分析之用户自定义词性覆盖系统原有词性 -
yeyefengiswo:
我手动添加了词库且有与default.dic重合的部分,但是还 ...
ansj_seg源码分析之用户自定义词性覆盖系统原有词性 -
yucang52555:
qindongliang1922 写道词性,是自己定义的词库, ...
ansj_seg源码分析之用户自定义词性覆盖系统原有词性 -
qindongliang1922:
词性,是自己定义的词库,ansj原本不带这种功能么
ansj_seg源码分析之用户自定义词性覆盖系统原有词性
文章列表
需求:这两天操作svn,有一个配置文件不需要提交,可是修改了,想忽略掉该文件。
比较普遍的资料,譬如:http://blog.csdn.net/hemingwang0902/article/details/6904205,说的都是需要该文件没有加入版本控制。当文件就是从svn检出来的,这些就不适用了。
通过网友找到如下答案:SVN的权限控制最小单元是文件夹,而不是文件。所以在规划SVN库文件目录结构的时候,要充分考虑到权限控制的需求,尽量将需要统一管理权限的文件归拢到同一个文件夹内。
类加载器完全可以说是是 Java 语言的一个创新,也是 Java 语言流行的重要原因之一。它使得 Java 类可以被动态加载到 Java 虚拟机中并执行。
Java 虚拟机使用 Java 类的方式如下:Java 源程序(.java 文件)在经过 Java 编译器编译之后就被转换成 Java 字节码(.class 文件)。类加载器负责读取 Java 字节码,并转换成java.lang.Class类的一个实例。每个这样的实例用来表示一个 Java 类。通过此实例的 newInstance()方法就可以创建出该类的一个对象。实际的情况可能更加复杂,比如 Java 字节代码可能是通 ...
当Java虚拟机运行一个程序时,它需要内存来存储多个东西、例如,字节码、从已装载的class文件中得到的其他信息、对象、方法参数、返回值、局部变量以及运算的中间结果等等,Java虚拟机把这些东西组织到几个"运行时数据区"中,以便于管理。
先贴一下结构图:
某些运行时数据区是由程序中所有线程共享的,还有一些则只能由一个线程拥有,每个Java虚拟机实例都有一个方法区以及一个堆,它们是由该虚拟机实例中所有线程共享的。当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息。然后, ...
java虚拟机的存在就是为了一个任务——执行java程序。程序开始是他运行,结束时他停止。对应的,需要指出,在一台机器上运行了三个程序的话,就会有三个运行中的虚拟机(曾经一度错误的理解过)。 java虚拟机实例通过调用某个初始类的main()方法来运行一个Java程序。而这个main()方法必须是共有的(public)、静态的(static)、返回值为void,并且接受一个字符串数组作为参数。任何拥有这样一个main()方法的类都可以作为Java程序运行的起点,任何其他的线程都是由这个初始线程启动的。 在Java虚拟机内部有两种线程:守护线程和非守护线程。守护 ...
最近重新接触权限控制,本着以前用过spring security,想了解一下是不是还有其他框架,进行一下比较,果不其然,apache shiro更受欢迎,连spring官方都在用,那我就没话说了,直接选它吧。
详情参见:http://kdboy.iteye.com/blog/1154644
程序猿行业技术生活交流群:181287753(指尖天下),欢迎大伙加入交流学习。
一:堆内存
JVM 中最大堆内存的大小有三个限制::1:相关操作系统的数据模型(32-bt还是64-bit)限制;2:系统的可用虚拟内存限制;3:系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制 ...
上一篇,我们说到mysql集群环境配置,可以在管理节点(我的机器:10.10.10.41)上检查,输入如下命令:
[root@localhost bin]# /usr/local/mysql/bin/ndb_mgm
-- NDB Cluster -- Management Client --
ndb_mgm> show
Connected to Management Server at: localhost:1186
Cluster Configuration
---------------------
[ndbd(NDB ...
一、环境:
CentOS6.3(64位) + MySQL Cluster 7.3.7,规划5台虚拟机器,1G内存,分工如下:
MGM:10.10.10.41(管理节点)
NDBD1:10.10.10.42(数据节点1)
NDBD2:10.10.10.43(数据节点2)
SQL1:10.10.10.44(sql节点1)
SQL2:10.10.10.45(sql节点2)
二、准备:
安装包主要有三种类型:1:rpm安装包;2:预编译二进制安装包; 3:源码包。
这里选择第二种安装包“预编译二进制安装包”,它只需要解压即可。
先官网下载页面 http://dev.mysql.co ...
在搜索引擎中,我们需要将对应的文档数据转变成可处理的规则数据,就需要我们在这个流程中加一个映射,这就是搜索引擎中的Mapping。
具体操作就是对索引库中索引的字段名及其数据类型进行定义,类似于关系数据库中表建立时要定义字段名及其数据类型那样,区别在于es的 mapping比数据库灵活很多,它可以动态添加字段。即使不指定mapping也可以,因为es会自动根据数据格式定义它的类型,如果你需要对某 些字段添加特殊属性(如:定义使用其它分词器、是否分词、是否存储等),就必须手动添加mapping。
有两种添加mapping的方法,一种是定义在配置文件中,一种是运行时手动提交m ...
elasticsearch提供两种方式连接到集群,一种是通过在你的程序中创建一个嵌入es节点(Node),使之成为es集群的一部分,然后通过这个节点来与es集群通信;另一种则是用TransportClient这个接口和es集群通信。
首先,我们尝试嵌入节点的方式,有如下三种方式(区别如下注释):
@Test
public void testDefaultNode(){
//默认配置(数据节点)启动一个节点,会自动加入同网段的es集群,前提就是es的集群名(cluster.name)参数要设置一致
//默认状态下es集群会自动给它分 ...
eclipse中svn本地项目与服务器项目关联
- 博客分类:
- 基础
1、项目右击;
2、Team->Share Project->Svn
3、选择【使用指定的模块名】,点浏览,选择资源库中匹配的项目
这个地方要特别注意,目录不要选错,如果目录选错,就等于白弄了。
注意点:选择的目录可以被看作是根目录。然后此根目录下面的内容将会复制到本地项目中。
假如服务器上的路径为:https://10.10.10.240:8443/projects/ElasticSearch,
然后在此目录下又会有两个目录,一个是src,一个是hyundai,这样来说,就会有2个hyundai,我就慌了。不知道选哪个了。实际上,很简单,这个地址https://10.10. ...
elasticSearch源码分析之插件机制
- 博客分类:
- 开源
前面已经部署了elasticSearch源码,并了解了ES组件(Modules)的组织方式,可以大致的认为ES是由一个一个的组件构成的,本文讨论ES的插件机制,插件机制只是它的一个组件,具体在(PluginsModule)。
Modules里面有一个方法处理预处理组件:
/**
* 处理预处理组件
* @param modules
*/
public static void processModules(Iterable<Module> modules) {
for (Module module : modules) {
if (mo ...
今天遇到一个需求,需要用用户自定义词库的词性标注,替换系统原有词库的词性标注。也就是玉壶自定义词性覆盖系统原有词性。
废话不多说,直接上代码:
package org.ansj.demo;
import java.io.IOException;
import java.util.List;
import org.ansj.domain.Term;
import org.ansj.recognition.NatureRecognition;
import org.ansj.splitWord.analysis.ToAnalysis;
/**
* 词性 ...
今天查阅ansj源码是看到权重这里:
private List<Keyword> computeArticleTfidf(String content, int titleLength) {
Map<String, Keyword> tm = new HashMap<String, Keyword>();
List<Term> parse = NlpAnalysis.parse(content);
for (Term term : parse) {
double weight = getWeight ...
最近,工作上用到中文分词ansj,先前我是整合到ES里面,但是觉得这样不利于源码分析,所以我们先把源码部署起来:
在线演示:[url]http://ansj.sdapp.cn/demo/seg.jsp [/url]
官网地址:[url]http://www.ansj.org/ [/url]
github:https://github.com/NLPchina/ansj_seg
通过maven引入源码,这里不再赘述。得到结构图如下:
我们可以发现library.properties就是用来配置词典的,最开始配置如下:
#redress di ...