`

关键词扩展词表

阅读更多

关键词扩展词表

根据目前网络语言的特点,一些敏感词会以诸如拼音、缩写、同音字等等特殊形式出现.据此,敏感词库设计关键词扩展词表用来存储敏感关键词的一些特殊形式.每一种表

现形式由一套规则生成,主要规则设计以下六种:

 

(1)同音字(字音变换):

关键词中以某个字的同音字替换,如“奥运会”——“澳运会”。

(2)拼音:

拼音代替汉字,如“奥运会”——“奥yun会”。

(3)插人特殊符号(插入无效符号):

在关键词中任意位置插入特殊符号,如“奥运会”——“奥$运会”。

(4)英文代替:

关键词的英文翻译.

(5)近义词:

与关键词意义相近的词.

(6)缩写:

关键词的常用缩写形式,如“神舟六号”——“神6”.缺省为拼音首字母。

(7)字形变换:

(8)图像化:

 

由此针对每个关键词可以生成一共六个扩展词,根据用户需求,可对六种规则选取分别得到不同的扩展形式。

 

参考:

互联网舆情分析关键技术研究

基于关联词和扩展规则的敏感词库设计

 

分享到:
评论

相关推荐

    哈工大停用词表扩展

    ### 哈工大停用词表扩展:深入解析与应用 #### 一、停用词的概念及其重要性 在自然语言处理(NLP)领域,停用词是指在信息检索或文本分析过程中被过滤掉的常用词。这些词汇通常包括冠词、介词、连词等,在语句中...

    百度停用词表

    1. **定制化停用词表**:根据具体应用场景和语料特点,适当调整或扩展停用词表。 2. **动态更新**:随着语言环境的变化和技术的发展,定期更新停用词表,确保其有效性。 3. **结合其他预处理技术**:停用词过滤只是...

    中文常用停用词表(中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库).rar

    资源标题:中文常用停用词表(中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库).zip 资源描述: 该压缩文件包含了中文常用停用词表,包括中文停用词表、哈...关键词:中文停用词表、哈

    最全的同义词表--可用于词扩展

    比如,在进行关键词提取时,可以通过同义词扩展来获取更多的关联词汇,从而获得更丰富的信息。 ### 示例分析 文档中给出了部分同义词条目,例如“大自然”这一主题下包含了一系列与之相关的词汇:“混沌”、“空间...

    停用词(包含中英文停用词表)

    此外,需要注意的是,停用词表并非一成不变,有些情况下,某些词汇可能在特定上下文中具有重要意义,因此在实际应用中可能需要对停用词表进行适当的扩展或定制。 总的来说,停用词在自然语言处理中起着降低噪声、...

    停用词表stop word

    根据题目描述中的信息,“在原有停用词的基础上在自己做实验的过程中又加入了很多”,这表明该停用词表是在已有的基础上进行了扩展和改进。具体来说: 1. **全面性**:作者声称这是一个“比较全”的停用词表,意味...

    计算机领域内文章关键词抽取系统

    该系统以Windows 2000作为开发平台,采用面向对象的编程方法,确保了系统的可扩展性和模块化。用户友好的界面使得操作简便,系统不仅具备分句、分词等基本功能,还能支持用户对数据库和词库进行维护。这意味着用户...

    电信设备-基于叙词表的信息检索方法及装置.zip

    综上所述,基于叙词表的信息检索方法及装置在电信设备中具有重要的应用价值,它通过规范化和扩展的词汇控制,提升了信息检索的效率和准确性,同时,结合硬件和软件的优化设计,为用户提供了一个高效且易用的信息查询...

    科技查新检索中的关键词选择归纳.pdf

    因此,查新员需要具备对关键词进行【拓展】的能力,如利用词表找出规范名称和其他常用名称,以扩大检索范围,确保查全率。 【检索策略】的灵活性也是提高查新质量的关键。这包括了多种关键词的组合使用,如采用"布...

    基于词表的词频统计(孔令德,C++,C)

    例如,词频统计可以用于分析文本的主题和情感倾向,检测文本的作者和来源,自动抽取关键词和摘要等。 哈希表的应用 在本文中,我们使用了哈希表(Hash Table)来存储词语和其对应的频率信息。哈希表是一种常用的...

    速卖通长尾关键词采集-crx插件

    关键词商品采集使用提示:添加扩展后,点击扩展图标,输入类目,或者关键词,点击“开始采集”。完成后会自动下载长尾关键词本插件需要获取以下权限运行:1."https://connectkeyword.aliexpress.com/*","*://*....

    jieba分词词典和停用词

    6. **扩展功能**:除了基本的分词,jieba还提供了其他功能,如词性标注、关键词提取(使用TextRank算法)、自定义词性标注等。同时,jieba还支持jieba.lcut_for_search()的搜索模式,针对搜索引擎的需求优化了分词...

    自考信息组织简答.doc

    - 增加主题词:对于新概念,可能需要扩展词表。 - 款目词加倒置自然语言:对于特定主题,可采用此方法增强检索效果。 6. 关键词索引的类型: - 题内关键词索引:关键词出现在文献题目内。 - 题外关键词索引:...

    如何给phpcms v9增加类似于phpcms 2008中的关键词表

    首先,我们需要创建一个新的模型文件来扩展原有的关键词功能。在`model`文件夹中新建一个名为`keyword_ext_model.class.php`的文件。在这个文件中,定义一个新的类`keyword_ext_model`,继承自`model`类,并设置相关...

    中文叙词表本体的检索实现及其术语学服务研究

    叙词表是一种规范化的词汇表,常用于信息检索系统中以便于用户通过关键词检索信息。叙词表本体则是将叙词表以本体论的形式进行表示和组织,利用本体的结构化特性进一步加强信息检索的精确性和智能化。 1. **中文叙...

Global site tag (gtag.js) - Google Analytics