`
xieye
  • 浏览: 835260 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

我对二元分词的构想与实践

    博客分类:
  • PHP
阅读更多
表只有一个,记录词和新闻记录的对应关系
另外应该还有一个新闻表,就不列了。

CREATE TABLE IF NOT EXISTS fenci (
  word      int not null default 0 comment '词的unicode码组合',
  news_id   int not null default 0 comment '新闻的id',
  news_type int not null default 0 comment '新闻的类型',
  primary key (word, news_id, news_type)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='分词表';
注意表的3联合主键可以避免重复的数据。


这里重要的是把一个词如“你好”转成一个数字,
我采用的方法:
"你"的十六进制4f60 十进制20320
"好"的十六进制597d 十进制22909
你好就编码成4f60597d十六进制对应的这个十进制数1331714429。

下面是把一句话分解成若干个词,可指定参数,限制长短,如30,
方法如下,
第一个字符和第二个字符组词,序号是0,
第二个字符和第三个字符组测,序号是1,
。。。直到序号29(包括在内),
总共30个词,包含了31个字符。

对于每个词,首先正则判断是否每个字都是汉字,网上的例子多的很,什么数字,字母,标点都不要,必须
两个字都是汉字。

这样筛了一遍后,

还可以再筛一遍,把包含如下字(应该有更多):“了”“吧”“吗”。“一”。。的词再筛掉。
然后去掉重复的词,

对于剩下的每个词,先转成数字,往表插数据,word,新闻id,新闻类型。最好能屏蔽数据库错误,
因为表有主键约束。


当用户提交查询数据时,获取其查询的前两个汉字,转成数字,到表中查

至于分词,可以在服务器空闲的时候做.
附件是二元分词的类。
  • fenci.zip (2.4 KB)
  • 描述: 二元分词类,需要自己指定数据库连接
  • 下载次数: 34
分享到:
评论
6 楼 xieye 2008-07-20  
因为我们都说汉语,不说英语的,感谢捧场。
5 楼 zbird 2008-07-18  
为什么不用空格分词,然后做全文索引(mysql的)?
4 楼 xieye 2008-07-18  
做一个简单的网站。
或者做一个复杂的网站。但是人手少。所以先快速实现原型,就象我现在这种情况。
程序是可以扩展的。
3 楼 iunknown 2008-07-17  
xieye 写道
用户输入的查询超过两个字符,我就取前两个。
如果这前两个字符包含英文,我就不给他查


如果是这样,那么这种方案适用于什么场合呢?
2 楼 xieye 2008-07-17  
用户输入的查询超过两个字符,我就取前两个。
如果这前两个字符包含英文,我就不给他查
1 楼 iunknown 2008-07-17  
引用
当用户提交查询数据时,获取其查询的前两个汉字,转成数字,到表中查


如果用户查询的字符不止两个呢?如果包含英文呢?

相关推荐

    《自然语言处理入门》第03章 二元语法与中文分词.pptx

    自然语言处理入门第三章二元语法与中文分词 本章主要介绍了自然语言处理中的语言模型、中文分词语料库和二元语法模型。语言模型是指对语言现象的数学抽象,通过计算句子的出现概率来描述语言。二元语法模型是语言...

    Lucene.Net 2.3.1开发介绍 —— 二、分词(四)

    Lucene.Net 2.3.1开发介绍 —— 二、分词(四),这是一个系列的文档,太多了,只好分开

    人工智能时代高校“二元制”审计实践教学模式探讨.pdf

    为了解决这一问题,提出了“二元制”审计实践教学模式,该模式旨在将理论与实践紧密结合起来,通过增强学生的实践动手能力和提升学生的社会竞争力,以适应新时代的教育体制。 “二元制”审计实践教学模式强调理论...

    中文分词:采用二元词图以及viterbi算法.docx

    ### 中文分词技术及其应用:二元词图与Viterbi算法 #### 一、中文分词概述 中文分词作为自然语言处理(NLP)领域的重要基础技术之一,在信息检索、文本挖掘、机器翻译等多个方面都有着广泛的应用。不同于英语等以...

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 ...WinXP),对数量词、地名、路名的优化处理,对未知词汇采用自识别结合二元切分算法,确保搜索召回率。但是没有源代码下载,只能联系作者索要。

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万... 对未知词汇采用自识别结合二元切分算法,确保搜索召回率 (使用方法请参考IKAnalyzer V1.1版)

    对二元序列10110010,画出2ASK的波形,设载波频率为码元速率的2倍

    根据给定的信息,我们将深入探讨如何对二元序列10110010进行2ASK(二进制振幅键控)调制,并绘制出相应的波形图。在这个过程中,我们将详细介绍2ASK的基本概念、调制过程以及如何在MATLAB环境中实现这一调制过程。 ...

    读书笔记2之中文分词流程HanLP

    以下是对中文分词流程以及汉语文本处理库HanLP的详细解析。 首先,**句子切分**是中文分词的第一步,它将长文本分解成单独的句子。对于HanLP,如果输入是一篇文章,系统会先进行句子切分,这通常基于标点符号和特定...

    论文研究-二元语法中文分词数据平滑算法性能研究.pdf

    将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回...

    ChineseSplitter中文分词(单字、双字、词义)

    简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 <br>类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...

    我的二元树代码

    在"我的二元树代码"这个项目中,你可以找到作者关于二元树的实现,这可能包括不同类型的二元树、各种操作的代码以及可能的优化。通过阅读和理解这些代码,你可以学习到如何在实际编程中运用二元树知识。同时,如果...

    二元树及其应用

    二元树,也被称为二叉树,是计算机科学中一种重要的数据结构,它在很多算法和应用中都扮演着核心角色。...通过实践项目如"二元树及其应用",你可以深入理解二元树的原理,并将这些知识应用于解决实际问题。

    java 实现的中文分词算法(代码)

    在分词过程中,FMM通过滑动窗口的方式遍历文本,每次比较窗口内的字符序列是否与词典中的词语匹配。如果匹配成功,就将该词语提取出来。FMM的优势在于其高效性,但由于依赖词典,对于未登录词的处理可能不够理想。 ...

    基于python建立二元回归线性模型对数据进行分析并预测

    基于python建立二元回归线性模型对数据进行分析并预测。原理是分别建立被解释变量Y与6个解释变量X1、X2、X3、X4、X5和X6的一元线性回归模型;根据每一个一元线性回归模型的检验结果,选择其中一个模型为基本模型,...

    组织二元性研究综述与展望.pdf

    组织二元性研究综述与展望 组织二元性研究综述与展望 组织二元性研究综述与展望

    二元二次方程组的解法

    2. 将分解后的方程与原始的二元一次方程组合,形成新的方程组。 3. 解新方程组,找到未知数的值。 思考题中,给出了一个不同形式的方程组,需要观察其特点并应用适当的解法。对于这类方程组,我们可以继续沿用已有...

    二元正态分布密度函数图像

    这些图像可以帮助直观理解二元正态分布的特点,以及相关系数ρ对分布形态的影响。 总之,二元正态分布是一种描述两个变量联合分布的重要概率模型,其特性受相关系数、均值和标准差的影响。通过调整相关系数,我们...

Global site tag (gtag.js) - Google Analytics