`

敏感词检测

 
阅读更多
后面办法对很多关键词仍有较好的效率。

首先,关键词大多是2字到5字。
后面说法均以这个为基础,如果有更多字另算。
2字、3字、4字、5字各生成一个敏感词哈希表。
后面分开写了,合成一个数组也可以。
var ban2:Object = {某马:true,屏蔽:true,啦啦:true};
var ban3:Object = {某个马:true,三个字:true,啦啦啦:true,小广告:true};
var ban4:Object = {某个坏银:true,四个字符:true,哈哈哈哈:true,就爱凤姐:true};
var ban5:Object = {某个大法好:true,五个敏感字:true};

根据上面4组敏感词,自动生成以下索引
生成规则为,索引名是敏感词第一个字,值是一个int
该int的规则为,第i位为1表示上面4表存在长度为i的敏感词,否则不存在长度为i的敏感词
var index:Object = {二:0x04,三:0x08,四:0x10,五:0x20,某:0x3c,啦:0x0c,哈:0x10,小:0x08,就:0x10};

有一段如下文字,检验其是否包含敏感词:
“我就打小广告,气死版主”
规则如下:
1,逐字检验,是否该字在index索引表中。
2,如果不在表中,继续检验
3,如果在表中,根据索引表该键的值,取此字以及此字后的若干字检验详细表。
4,所谓“检测”某关键词str是否在索引表index的方法是,if(index[str]){}

检验例子
——检测“我”
  |-不在索引表
——检测“就”
  |-在索引表
  |-“就”的索引值是0x10,表示有4字以“就”开头的敏感词
  |-取“就”和后面的字共4个,组成“就打小广”
  |-查4字敏感词表,没有这项,继续
——检测“打”
  |-不在索引表
——检测“小”
  |-在索引表
  |-索引值是0x08,表示有3字长度的敏感词
  |-取“小”和“小”后面的字,共3个字组成一个词“小广告”
  |-“小广告”在3字敏感词中,此帖包含敏感词,禁止发布
分享到:
评论

相关推荐

    网站敏感词检测源码.rar

    网站敏感词检测是网络安全与信息审查中的重要环节,主要用于防止用户发布含有违规或不适宜内容的信息。本资源“网站敏感词检测源码.rar”提供了一种解决方案,包含了四种不同的算法,帮助开发者实现这一功能。接下来...

    敏感词检测api接口源码

    在这个特定的案例中,我们讨论的是一个“敏感词检测API接口”的源码,它主要用于检查输入的文本是否包含任何可能被视为不适当或敏感的词汇。这个API是用PHP编写的,一种广泛用于Web开发的脚本语言。 首先,`str....

    敏感词检测——C语言代码

    本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下标对应的数组元素的值...

    敏感词检测.zip windows免安装版

    敏感词检测程序,离线版,不需联网,可用于检测文本是否包含了敏感词

    短信敏感词检测工具

    短信敏感词检测工具是一款专为短信内容筛查设计的软件,主要功能是检查短信文本中是否包含有可能引发法律、道德或安全问题的词汇。在信息化社会,短信作为一种常见的沟通方式,可能涉及个人信息保护、商业秘密、违法...

    java四种网站敏感词检测.zip

    在Java开发中,网站敏感词检测是至关重要的一个环节,特别是在处理用户生成内容(UGC)时,如论坛、评论区等。为了确保网络环境的健康和合法,开发者需要有效地过滤掉涉及违法、违规或者不适宜的词汇。本压缩包包含...

    Python基于Scrapy的页面敏感词检测工具源码.zip

    Python基于Scrapy的页面敏感词检测工具是一种高效的数据抓取和处理框架,它结合了Scrapy库的强大功能,用于从网页中抓取信息并进行特定的敏感词检测。本工具适用于那些需要监控网络内容,避免违规信息发布的场景,如...

    基于Go语言实现敏感词检测源码+详细项目说明.zip

    基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词...

    C#高性能敏感词检测过滤组件

    在IT行业中,尤其是在文本处理和数据安全领域,敏感词检测过滤是一个重要的技术环节。本文将深入探讨"**C#高性能敏感词检测过滤组件**"的相关知识点,包括其核心功能、实现原理以及应用背景。 该组件的主要功能是...

    C++中英文敏感词检测工具类

    在IT领域,尤其是在文本处理和信息安全中,敏感词检测是一个重要的功能。本项目提供了一个C++实现的中英文敏感词检测工具类,该工具能够帮助开发者检查文本中是否存在特定的关键字,并在找到时进行替换,以保护数据...

    基于C#的高性能敏感词检测过滤与多语言转换设计源码

    本项目是一款基于C#开发的高性能敏感词检测过滤组件源码,包含254个文件,涵盖75个txt文件、66个C#源代码文件、63个SCEL文件、16个Java文件、13个Go文件、6个csproj文件、5个png文件、2个gitignore文件、2个MD文件和...

    基于thinkphp6+ 实现的敏感词检测,过滤,标记源代码

    在IT行业中,开发一款应用或服务时,对用户输入进行敏感词检测、过滤和标记是非常重要的环节,尤其在社交媒体、论坛、评论系统等环境中。这个项目是基于ThinkPHP6+框架实现的敏感词处理功能,它能帮助开发者有效管理...

    java做敏感词监测

    这个压缩包文件可能包含了一套后端实现敏感词检测的解决方案。下面我们将详细探讨Java如何进行敏感词监测,以及相关的重要知识点。 首先,敏感词监测的核心是建立一个敏感词库。这个词库通常包含了一系列禁止或限制...

    Python-ToolGoodWords是一款高性能非法词敏感词检测组件

    **Python-ToolGoodWords:高性能非法词敏感词检测组件** 在信息安全和内容审查领域,敏感词检测是一项至关重要的任务。Python-ToolGoodWords是专为此目的设计的一款高性能组件,它能够有效地帮助开发者检测并过滤出...

    用于检测敏感词的 PHP 扩展

    总的来说,这个PHP敏感词过滤扩展利用字典树优化了敏感词检测的效率,修复后的版本提升了其稳定性和准确性,为开发者提供了一种实用的工具,以保障网站内容的健康和安全。在实际应用中,根据具体的需求,你可能还...

    网络敏感词检测----SensitivewordFilter-匹配度低,速度快

    在网络安全和信息审查领域,网络敏感词检测是一个重要的技术手段,用于识别并过滤掉可能引起争议或不适当的内容。本文将深入探讨SensitivewordFilter这一工具,它以其匹配度低、速度快的特点,成为了敏感词过滤领域...

    基于php基础词库并结合自定义词库进行分词的系统,也可进行敏感词检测

    在IT领域,分词是文本处理中的一个关键步骤,它涉及到将连续的汉字序列切分成具有独立意义的...在具体的应用场景中,开发者可以根据需求调整词库,优化分词效果,同时通过敏感词检测功能,确保信息的合规性和安全性。

    基于多语言支持的敏感词检测与过滤系统设计源码

    该项目是一款多语言支持的敏感词检测与过滤系统设计源码,包含42个文件,涵盖PHP, Go, JavaScript, ...它具备敏感词检测、违禁词过滤、敏感词库管理等功能,并支持在线API调用和Docker容器化部署,适用于多种应用场景。

    DzFilter,使用DFA算法实现的内容安全,反垃圾,智能鉴黄,敏感词过滤,不良信息检测,文本校验,敏感词检测,包括关键词提取,过滤html标签等。

    考虑到网络内容常包含HTML标签,DzFilter提供了过滤HTML标签的功能,避免了标签干扰敏感词检测的问题。这一特性使得它在处理网页内容时更加得心应手。 总的来说,DzFilter是一款集多种功能于一体的文本处理工具,其...

Global site tag (gtag.js) - Google Analytics