`

HanLP二元核心词典详细解析

 
阅读更多

 

本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。

源码实现

二元核心词典的加载

二元核心词典在文件:CoreNatureDictionary.ngram.txt,约有46.3 MB。程序启动时先尝试加载CoreNatureDictionary.ngram.txt.table.bin 缓存文件,大约22.9 MB。这个缓存文件是序列化保存起来的。

 ObjectInputStream in = new ObjectInputStream(IOUtil.newInputStream(path));

 start = (int[]) in.readObject();

 pair = (int[]) in.readObject();

当缓存文件不存在时,抛出异常:警告: 尝试载入缓存文件E:/idea/hanlp/HanLP/data/dictionary/CoreNatureDictionary.ngram.txt.table.bin发生异常[java.io.FileNotFoundException: 然后解析CoreNatureDictionary.ngram.txt

 

br = new BufferedReader(new InputStreamReader(IOUtil.newInputStream(path), "UTF-8"));

while ((line = br.readLine()) != null){

    String[] params = line.split("\\s");

    String[] twoWord = params[0].split("@", 2);

    ...

}

然后,使用一个TreeMap<Integer, TreeMap<Integer, Integer>> map来保存解析的每一行二元核心词典条目。

 

TreeMap<Integer, TreeMap<Integer, Integer>> map = new TreeMap<Integer, TreeMap<Integer, Integer>>();

 

int idA = CoreDictionary.trie.exactMatchSearch(a);//二元接续的 @ 前的内容

int idB = CoreDictionary.trie.exactMatchSearch(b);//@ 后的内容

 

TreeMap<Integer, Integer> biMap = map.get(idA);

if (biMap == null){

    biMap = new TreeMap<Integer, Integer>();

    map.put(idA, biMap);//

}

biMap.put(idB, freq);

比如二元接续:“一 一@中”,@ 前的内容是:“一 一”,@后的内容是 “中”。由于同一个前缀可以有多个后续,比如:

 

一一@中 1

一一@为 6

一一@交谈 1

所有以 '一 一' 开头的 @ 后的后缀 以及对应的频率 都保存到 相应的biMap中:biMap.put(idB, freq);。注意:biMap和map是不同的,map保存整个二元核心词典,而biMap保存某个词对应的所有后缀(这个词 @ 后的所有条目)

 

map中保存二元核心词典示意图如下:

 



 

二元核心词典主要由CoreBiGramTableDictionary.java 实现。这个类中有两个整型数组 支撑 二元核心词典的快速二分查找。

 

    /**

     * 描述了词在pair中的范围,具体说来<br>

     * 给定一个词idA,从pair[start[idA]]开始的start[idA + 1] - start[idA]描述了一些接续的频次

     */

    static int start[];//支持快速地二分查找

    /**

     * pair[偶数n]表示key,pair[n+1]表示frequency

     */

    static int pair[];

start 数组

首先初始化一个与一元核心词典Trie树 size 一样大小 的start 数组:

 

int maxWordId = CoreDictionary.trie.size();

...

start = new int[maxWordId + 1];

然后,遍历一元核心词典中的词,寻找这些词是 是否有二阶共现(或者说:这些词是否存在 二元接续)

 

for (int i = 0; i < maxWordId; ++i){

    TreeMap<Integer, Integer> bMap = map.get(i);

    if (bMap != null){

        for (Map.Entry<Integer, Integer> entry : bMap.entrySet()){

            //省略其他代码

            ++offset;//统计以 这个词 为前缀的所有二阶共现的个数

        }

    }//end if

    start[i + 1] = offset;

}// end outer for loop

if (bMap != null)表示 第 i 个词(i从下标0开始)在二元词典中有二阶共现,于是 统计以 这个词 为前缀的所有二阶共现的个数,将之保存到 start 数组中。下面来具体举例,start数组中前37个词的值如下:

 



 

其中start[32]=0,start[33]=0,相应的 一元核心词典中的词为 ( )。即,一个左括号、一个右括号。而这个 左括号 和 右括号 在二元核心词典中是不存在词共现的(接续)。也就是说在二元核心词典中 没有 (@xxx这样的条目,也没有 )@xxx 这个条目(xxx 表示任意以 ( 或者 ) 为前缀 的后缀接续)。因此,这也是start[32] 和 start[33]=0 都等于0的原因。

 

部分词的一元核心词典如下:

 



 

再来看 start[34]=22,start[35]=23。在一元核心词典中,第34个词是"一 一",而在二元核心词典中 '一 一'的词共现共有22个,如下:

 



 

 

在一元核心词典中,第35个词是 "一 一列举",如上图所示,"一 一列举" 在二元核心中只有一个词共现:“一 一列举@芒果台”。因此,start[35]=22+1=23。从这里也可以看出:

 

给定一个词idA,从pair[start[idA]]开始的start[idA + 1] - start[idA]描述了一些接续的频次

 

比如,idA=35,对应词“一 一列举”,它的接续频次为1,即:23-22=1

 

这样做的好处是什么呢?自问自答一下:^~^,就是大大减少了二分查找的范围。

pair 数组

pair数组的长度是二元核心词典行数的两倍

 

int total = 0;

while ((line = br.readLine()) != null){

    //省略其他代码

    total += 2;

}

pair数组 偶数 下标 存储 保存的是 一元核心词典中的词 的下标,而对应的偶数加1 处的下标 存储 这个词的共现频率。即: pair[偶数n]表示key,pair[n+1]表示frequency

 

            pair = new int[total];  // total是接续的个数*2

 

            for (int i = 0; i < maxWordId; ++i)

            {

                TreeMap<Integer, Integer> bMap = map.get(i);//i==0?

                if (bMap != null)//某个词在一元核心词典中, 但是并没有出现在二元核心词典中(这个词没有二元核心词共现)

                {

                    for (Map.Entry<Integer, Integer> entry : bMap.entrySet())

                    {

                        int index = offset << 1;

                        pair[index] = entry.getKey();//词 在一元核心词典中的id

                        pair[index + 1] = entry.getValue();//频率

                    }

                }

            }

举例来说:对于 '一 一@中',pair数组是如何保存这对词的词共现频率的呢?

'一 一'在 map 中第0号位置处,它是一元核心词典中的第34个词。 共有22个共现词。如下:

 



 

其中,第一个共现词是 '一 一 @中',就是'一 一'与 '中' 共同出现,出现的频率为1。而 ''中'' 在一元核心词典中的 4124行,如下图所示:

 



 

因此,'一 一@中'的pair数组存储如下:

 

0=4123 (‘中’在一元核心词典中的位置(从下标0开始计算))

 

1=1 ('一 一@中'的词共现频率)

 

2=5106 ('为' 在一元核心词典中的位置) 【为 p 65723】

 

3=6 ('一 一@为'的词共现频率)

 



 

由此可知,对于二元核心词典共现词而言,共同前缀的后续词  pair数组中是顺序存储的,比如说:前缀'一 一'的所有后缀:中、为、交谈……按顺序依次在 pair 数组中存储。而这也是能够对 pair 数组进行二分查找的基础

 

 @中 1

 @为 6

 @交谈 1

 @介绍 1

 @作 1

 @分析

 

.......//省略其他

 

二分查找

现在来看看 二分查找是干什么用的?为什么减少了二分查找的范围。为了获取某 两个词(idA 和 idB) 的词共现频率,需要进行二分查找:

 

public static int getBiFrequency(int idA, int idB){

    //省略其他代码

    int index = binarySearch(pair, start[idA], start[idA + 1] - start[idA], idB);

    return pair[index + 1];

}

根据前面介绍,start[idA + 1] - start[idA]就是以 idA 为前缀的 所有词的 词共现频率。比如,以 '一 一' 为前缀的词一共有22个,假设我要查找 '一 一@向' 的词共现频率是多少?在核心二元词典文件CoreNatureDictionary.ngram.txt中,我们知道 '一 一@向' 的词共现频率为2,但是:如何用程序快速地实现查找呢?

 

二元核心词典的总个数还是很多的,比如在HanLP1.5.3大约有290万个二元核心词条,如果每查询一次 idA@idB 的词共现频率就要从290万个词条里面查询,显然效率很低。若先定位出 所有以 idA 为前缀的共现词:idA@xx1,idA@xx2,idA@xx3……,然后再从从这些 以idA为前缀的共现词中进行二分查找,来查找 idA@idB,这样查找的效率就快了许多。

 

start 数组保存了一元词典中每个词 在二元词典中的词共现情况: start[idA] 代表 idA在 pair 数组中共现词的起始位置,而start[idA + 1] - start[idA]代表 以idA 为前缀的共现词一共有多少个,这样二分查找的范围就只在 start[idA] 和 start[idA] + (start[idA + 1] - start[idA]) - 1之间了。

 

    private static int binarySearch(int[] a, int fromIndex, int length, int key)

    {

        int low = fromIndex;

        int high = fromIndex + length - 1;

        //省略其他代码

说到这里,再多说一点:二元核心词典的二分查找 是为了获取 idA@idB 的词共现频率,而这个词共现频率的用处之一就是最短路径分词算法(维特比分词),用来计算最短路径的权重。关于最短路径分词,可参考这篇解析:

 

//只列出关键代码

List<Vertex> vertexList = viterbi(wordNetAll);//求解词网的最短路径

to.updateFrom(node);//更新权重

double weight = from.weight + MathTools.calculateWeight(from, this);//计算两个顶点(idA->idB)的权重

int nTwoWordsFreq = CoreBiGramTableDictionary.getBiFrequency(from.wordID, to.wordID);//查核心二元词典

int index = binarySearch(pair, start[idA], start[idA + 1] - start[idA], idB);//二分查找 idA@idB共现频率

总结

有时候由于特定项目需要,需要修改核心词典。比如添加一个新的二元词共现词条  二元核心词典中去,这时就需要注意:添加的新词条需要存在于一元核心词典中,否则添加无效。另外,添加到CoreNatureDictionary.ngram.txt里面的二元共现词的位置不太重要,因为相同的前缀 共现词 都会保存到 同一个TreeMap中,但是最好也是连续放在一起,这样二元核心词典就不会太混乱。

 

文章来源 hapjin的博客

 

转载地址:https://www.cnblogs.com/hapjin/p/9010504.html

  • 大小: 30.9 KB
  • 大小: 3.3 KB
  • 大小: 3.5 KB
  • 大小: 14.1 KB
  • 大小: 31 KB
  • 大小: 4 KB
  • 大小: 7.1 KB
分享到:
评论

相关推荐

    读书笔记2之中文分词流程HanLP

    以下是对中文分词流程以及汉语文本处理库HanLP的详细解析。 首先,**句子切分**是中文分词的第一步,它将长文本分解成单独的句子。对于HanLP,如果输入是一篇文章,系统会先进行句子切分,这通常基于标点符号和特定...

    二元期权系统源码,运营版本带详细教程

    在提供的压缩包文件中,包含的"二元期权系统源码,运营版本带详细教程"很可能是完整的二元期权交易平台源代码,以及一份详细的教程,指导用户如何理解和使用这些代码来搭建、运营自己的二元期权交易平台。...

    台湾大学NTUSD情感词典

    这个词典由台湾大学的研究团队精心构建,旨在为文本情感倾向的判断提供支持,尤其对于二元情感分类(正面/负面)具有较高的实用价值。 情感分析是自然语言处理的一个分支,它的目标是理解人类语言中的情绪色彩,...

    二元树及其应用

    二元树,也被称为二叉树,是计算机科学中一种重要的数据结构,它在很多算法和应用中都扮演着核心角色。二元树的基本概念基于树形结构,每个节点最多有两个子节点,分别称为左子节点和右子节点。这种结构使得二元树...

    基于python的二元霍夫曼编码译码详细设计及代码实现

    【作品名称】:基于python的二元霍夫曼编码译码详细设计及代码实现 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: ...

    Bosonnlp情感词典

    《Bosonnlp情感词典:深度解析与应用》 在自然语言处理(NLP)领域,情感分析是一项至关重要的任务,它旨在理解和提取文本中的情感色彩,为文本分类、舆情分析、用户情绪理解等应用提供支持。Bosonnlp情感词典就是...

    二元正态分布密度函数图像

    首先,让我们详细了解二元正态分布的密度函数。该函数形式为: f(x, y) = (1 / 2πσ1σ2√(1 - ρ²)) * exp(-[1/(2(1 - ρ²))] * [(x - μ1)² / σ1² - 2ρ(x - μ1)(y - μ2) / (σ1σ2) + (y - μ2)² / σ2...

    正实数集上给定二元运算的解析乘

    吴小宁在《正实数集上给定二元运算的解析乘》一文中,对在正实数集上构造二元运算的方法进行了深入探讨。文章中提出了一种新的思路,即利用整数序列来构造正实数,并在此基础上引入了“解析乘”这一概念。 首先,...

    MATLAB.rar_matlab 二元回归_二元回归_二元线性回归

    下面将详细介绍二元线性回归的基本概念、原理及其在MATLAB中的实现方法。 二元线性回归是一种统计学方法,用于探究一个连续响应变量(也称作因变量)如何依赖于两个独立变量(自变量)。在这个场景下,我们假设有一...

    Java实现蓝桥杯VIP算法训练 二元函数_Java实现蓝桥杯VIP算法训练二元函数_major2fo_frequentlyeb

    `frequentlyebh`可能指的是一个特定的算法或者问题,但没有详细描述,我们无法提供具体实现。不过,它可能涉及到频繁项集挖掘、数据处理或某种特定的数学运算。在实际应用中,二元函数可以用于处理各种问题,比如...

    二元合金相图分析软件HRW

    二元合金相图是材料科学中的重要概念,用于研究两种元素组成的合金系统在不同温度和成分比例下的相态变化和相平衡关系。HRW(可能是软件名称的缩写)是一款专门用于二元合金相图分析的专业软件,它为科研人员和...

    二元二次方程组的解法

    二元二次方程组是指包含两个未知数的二次方程组成的系统,通常涉及形如ax² + bxy + cy² + dx + ey + f = 0的方程。解决这样的方程组通常需要一些特殊的技巧,包括代入消元、因式分解、配方法以及直接开平方等。 ...

    二元一次方程组的解

    这个过程被称为解二元一次方程组,它是初等代数的核心部分,对后续的数学学习,如线性代数、几何乃至工程计算等领域都有深远的影响。 二元一次方程组的形式可以表示为: \[ ax + by = e \] \[ cx + dy = f \] 其中...

    readfile.rar_字的二元模型_拼音输入法

    本文将详细探讨“字的二元模型”这一概念在拼音输入法中的应用,以及如何通过编程从文件中读取拼音串。 首先,让我们理解“字的二元模型”。在中文字符序列中,二元模型是一种统计分析方法,它考虑了汉字之间的相邻...

    二元线性回归python代码

    二元线性回归,读取txt数据,三维可视化,注意读取数据时预处理很重要。

    MATLAB解二元二次微分方程

    该MATLAB程序用来解二元二次微分方程,而且可以解系数变化的二元二次微分方程,并能将结果直接显示在FIGURE图中

    基于python建立二元回归线性模型对数据进行分析并预测

    基于python建立二元回归线性模型对数据进行分析并预测。原理是分别建立被解释变量Y与6个解释变量X1、X2、X3、X4、X5和X6的一元线性回归模型;根据每一个一元线性回归模型的检验结果,选择其中一个模型为基本模型,...

    大学离散数学实验二元关系及其性质.zip

    【实验目的】掌握二元关系在计算机上的表示方法,并掌握如果判定关系的性质。 【实验内容】 编程判断一个二元关系是否为等价关系,如果是,求其商集。 等价关系:集合A上的二元关系R同时具有自反性、对称性和传递性...

    二元铝合金系的相图合集

    二元铝合金系的相图合集

Global site tag (gtag.js) - Google Analytics