表只有一个,记录词和新闻记录的对应关系
另外应该还有一个新闻表,就不列了。
CREATE TABLE IF NOT EXISTS fenci (
word int not null default 0 comment '词的unicode码组合',
news_id int not null default 0 comment '新闻的id',
news_type int not null default 0 comment '新闻的类型',
primary key (word, news_id, news_type)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='分词表';
注意表的3联合主键可以避免重复的数据。
这里重要的是把一个词如“你好”转成一个数字,
我采用的方法:
"你"的十六进制4f60 十进制20320
"好"的十六进制597d 十进制22909
你好就编码成4f60597d十六进制对应的这个十进制数1331714429。
下面是把一句话分解成若干个词,可指定参数,限制长短,如30,
方法如下,
第一个字符和第二个字符组词,序号是0,
第二个字符和第三个字符组测,序号是1,
。。。直到序号29(包括在内),
总共30个词,包含了31个字符。
对于每个词,首先正则判断是否每个字都是汉字,网上的例子多的很,什么数字,字母,标点都不要,必须
两个字都是汉字。
这样筛了一遍后,
还可以再筛一遍,把包含如下字(应该有更多):“了”“吧”“吗”。“一”。。的词再筛掉。
然后去掉重复的词,
对于剩下的每个词,先转成数字,往表插数据,word,新闻id,新闻类型。最好能屏蔽数据库错误,
因为表有主键约束。
当用户提交查询数据时,获取其查询的前两个汉字,转成数字,到表中查
至于分词,可以在服务器空闲的时候做.
附件是二元分词的类。
- fenci.zip (2.4 KB)
- 描述: 二元分词类,需要自己指定数据库连接
- 下载次数: 34
分享到:
相关推荐
自然语言处理入门第三章二元语法与中文分词 本章主要介绍了自然语言处理中的语言模型、中文分词语料库和二元语法模型。语言模型是指对语言现象的数学抽象,通过计算句子的出现概率来描述语言。二元语法模型是语言...
Lucene.Net 2.3.1开发介绍 —— 二、分词(四),这是一个系列的文档,太多了,只好分开
为了解决这一问题,提出了“二元制”审计实践教学模式,该模式旨在将理论与实践紧密结合起来,通过增强学生的实践动手能力和提升学生的社会竞争力,以适应新时代的教育体制。 “二元制”审计实践教学模式强调理论...
### 中文分词技术及其应用:二元词图与Viterbi算法 #### 一、中文分词概述 中文分词作为自然语言处理(NLP)领域的重要基础技术之一,在信息检索、文本挖掘、机器翻译等多个方面都有着广泛的应用。不同于英语等以...
用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 ...WinXP),对数量词、地名、路名的优化处理,对未知词汇采用自识别结合二元切分算法,确保搜索召回率。但是没有源代码下载,只能联系作者索要。
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万... 对未知词汇采用自识别结合二元切分算法,确保搜索召回率 (使用方法请参考IKAnalyzer V1.1版)
根据给定的信息,我们将深入探讨如何对二元序列10110010进行2ASK(二进制振幅键控)调制,并绘制出相应的波形图。在这个过程中,我们将详细介绍2ASK的基本概念、调制过程以及如何在MATLAB环境中实现这一调制过程。 ...
以下是对中文分词流程以及汉语文本处理库HanLP的详细解析。 首先,**句子切分**是中文分词的第一步,它将长文本分解成单独的句子。对于HanLP,如果输入是一篇文章,系统会先进行句子切分,这通常基于标点符号和特定...
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回...
简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 <br>类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...
在"我的二元树代码"这个项目中,你可以找到作者关于二元树的实现,这可能包括不同类型的二元树、各种操作的代码以及可能的优化。通过阅读和理解这些代码,你可以学习到如何在实际编程中运用二元树知识。同时,如果...
二元树,也被称为二叉树,是计算机科学中一种重要的数据结构,它在很多算法和应用中都扮演着核心角色。...通过实践项目如"二元树及其应用",你可以深入理解二元树的原理,并将这些知识应用于解决实际问题。
在分词过程中,FMM通过滑动窗口的方式遍历文本,每次比较窗口内的字符序列是否与词典中的词语匹配。如果匹配成功,就将该词语提取出来。FMM的优势在于其高效性,但由于依赖词典,对于未登录词的处理可能不够理想。 ...
基于python建立二元回归线性模型对数据进行分析并预测。原理是分别建立被解释变量Y与6个解释变量X1、X2、X3、X4、X5和X6的一元线性回归模型;根据每一个一元线性回归模型的检验结果,选择其中一个模型为基本模型,...
组织二元性研究综述与展望 组织二元性研究综述与展望 组织二元性研究综述与展望
2. 将分解后的方程与原始的二元一次方程组合,形成新的方程组。 3. 解新方程组,找到未知数的值。 思考题中,给出了一个不同形式的方程组,需要观察其特点并应用适当的解法。对于这类方程组,我们可以继续沿用已有...
这些图像可以帮助直观理解二元正态分布的特点,以及相关系数ρ对分布形态的影响。 总之,二元正态分布是一种描述两个变量联合分布的重要概率模型,其特性受相关系数、均值和标准差的影响。通过调整相关系数,我们...