`

敏感词检测

 
阅读更多
后面办法对很多关键词仍有较好的效率。

首先,关键词大多是2字到5字。
后面说法均以这个为基础,如果有更多字另算。
2字、3字、4字、5字各生成一个敏感词哈希表。
后面分开写了,合成一个数组也可以。
var ban2:Object = {某马:true,屏蔽:true,啦啦:true};
var ban3:Object = {某个马:true,三个字:true,啦啦啦:true,小广告:true};
var ban4:Object = {某个坏银:true,四个字符:true,哈哈哈哈:true,就爱凤姐:true};
var ban5:Object = {某个大法好:true,五个敏感字:true};

根据上面4组敏感词,自动生成以下索引
生成规则为,索引名是敏感词第一个字,值是一个int
该int的规则为,第i位为1表示上面4表存在长度为i的敏感词,否则不存在长度为i的敏感词
var index:Object = {二:0x04,三:0x08,四:0x10,五:0x20,某:0x3c,啦:0x0c,哈:0x10,小:0x08,就:0x10};

有一段如下文字,检验其是否包含敏感词:
“我就打小广告,气死版主”
规则如下:
1,逐字检验,是否该字在index索引表中。
2,如果不在表中,继续检验
3,如果在表中,根据索引表该键的值,取此字以及此字后的若干字检验详细表。
4,所谓“检测”某关键词str是否在索引表index的方法是,if(index[str]){}

检验例子
——检测“我”
  |-不在索引表
——检测“就”
  |-在索引表
  |-“就”的索引值是0x10,表示有4字以“就”开头的敏感词
  |-取“就”和后面的字共4个,组成“就打小广”
  |-查4字敏感词表,没有这项,继续
——检测“打”
  |-不在索引表
——检测“小”
  |-在索引表
  |-索引值是0x08,表示有3字长度的敏感词
  |-取“小”和“小”后面的字,共3个字组成一个词“小广告”
  |-“小广告”在3字敏感词中,此帖包含敏感词,禁止发布
分享到:
评论

相关推荐

    网站敏感词检测源码.rar

    网站敏感词检测是网络安全与信息审查中的重要环节,主要用于防止用户发布含有违规或不适宜内容的信息。本资源“网站敏感词检测源码.rar”提供了一种解决方案,包含了四种不同的算法,帮助开发者实现这一功能。接下来...

    敏感词检测api接口源码

    在这个特定的案例中,我们讨论的是一个“敏感词检测API接口”的源码,它主要用于检查输入的文本是否包含任何可能被视为不适当或敏感的词汇。这个API是用PHP编写的,一种广泛用于Web开发的脚本语言。 首先,`str....

    敏感词检测——C语言代码

    本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下标对应的数组元素的值...

    敏感词检测.zip windows免安装版

    敏感词检测程序,离线版,不需联网,可用于检测文本是否包含了敏感词

    短信敏感词检测工具

    为了解决这些风险,短信敏感词检测工具应运而生,成为保障信息安全的得力助手。 短信敏感词检测工具是一种专门针对短信内容进行筛查的应用软件,它的设计初衷是为了检测并过滤掉那些可能引发法律、道德或安全问题的...

    java四种网站敏感词检测.zip

    在Java开发中,网站敏感词检测是至关重要的一个环节,特别是在处理用户生成内容(UGC)时,如论坛、评论区等。为了确保网络环境的健康和合法,开发者需要有效地过滤掉涉及违法、违规或者不适宜的词汇。本压缩包包含...

    Python基于Scrapy的页面敏感词检测工具源码.zip

    Python基于Scrapy的页面敏感词检测工具是一种高效的数据抓取和处理框架,它结合了Scrapy库的强大功能,用于从网页中抓取信息并进行特定的敏感词检测。本工具适用于那些需要监控网络内容,避免违规信息发布的场景,如...

    基于Go语言实现敏感词检测源码+详细项目说明.zip

    基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词检测源码+详细项目说明.zip基于Go语言实现敏感词...

    C#高性能敏感词检测过滤组件

    在IT行业中,尤其是在文本处理和数据安全领域,敏感词检测过滤是一个重要的技术环节。本文将深入探讨"**C#高性能敏感词检测过滤组件**"的相关知识点,包括其核心功能、实现原理以及应用背景。 该组件的主要功能是...

    C++中英文敏感词检测工具类

    在IT领域,尤其是在文本处理和信息安全中,敏感词检测是一个重要的功能。本项目提供了一个C++实现的中英文敏感词检测工具类,该工具能够帮助开发者检查文本中是否存在特定的关键字,并在找到时进行替换,以保护数据...

    文件名敏感词检测代码.py

    文件名敏感词检测代码的实现通常涉及到编程技术,特别是对于需要进行内容审查或过滤敏感信息的场景。在这种情况下,开发人员或安全管理员需要设计和开发能够自动识别和处理包含敏感词的文件名的程序。敏感词检测可以...

    token团队敏感词检测系统源码+说明.zip

    《token 团队敏感词检测系统源码 + 说明.zip 简介》 该资源是 token 团队精心打造的敏感词检测系统源码及相关说明文档的压缩包,具有重要学习价值。 其源码部分蕴含着先进的敏感词检测算法逻辑,通过高效的代码...

    基于Java语言开发的敏感词检测工具设计源码

    敏感词检测工具是确保网络环境健康和谐的重要技术手段之一,它能够有效地帮助企业和组织机构监测和过滤不适当、不合规或者含有恶意信息的内容。而Java语言,以其跨平台、面向对象的特性,成为了开发此类工具的首选...

    用于检测敏感词的 PHP 扩展

    总的来说,这个PHP敏感词过滤扩展利用字典树优化了敏感词检测的效率,修复后的版本提升了其稳定性和准确性,为开发者提供了一种实用的工具,以保障网站内容的健康和安全。在实际应用中,根据具体的需求,你可能还...

    基于多语言支持的敏感词检测与过滤系统设计源码

    随着全球化的发展,跨语言的内容交流愈发频繁,这就要求敏感词检测系统能够支持多种语言,以适应不同国家和地区的用户需求。本文档所描述的“基于多语言支持的敏感词检测与过滤系统设计源码”项目,正是为满足这一...

    一个安全的、离线的敏感词检测,使用处理过的数据集,不会泄露敏感词,避免争议_safe-sensitive-check.zip

    传统的敏感词检测往往依赖于在线服务或未加密的数据集,这样的处理方式存在泄露敏感信息的潜在风险,可能侵犯用户隐私,引发数据安全问题。 为了避免这些问题,开发了一种安全的、离线的敏感词检测工具,该工具使用...

    基于thinkphp6+ 实现的敏感词检测,过滤,标记源代码

    在IT行业中,开发一款应用或服务时,对用户输入进行敏感词检测、过滤和标记是非常重要的环节,尤其在社交媒体、论坛、评论系统等环境中。这个项目是基于ThinkPHP6+框架实现的敏感词处理功能,它能帮助开发者有效管理...

    java做敏感词监测

    这个压缩包文件可能包含了一套后端实现敏感词检测的解决方案。下面我们将详细探讨Java如何进行敏感词监测,以及相关的重要知识点。 首先,敏感词监测的核心是建立一个敏感词库。这个词库通常包含了一系列禁止或限制...

    基于C#的高性能敏感词检测过滤与多语言转换设计源码

    本项目提供的是一款基于C#语言开发的高性能敏感词检测过滤组件源码,该组件不仅能够在大数据量的文本中高效地识别和处理敏感词,而且还提供了多语言文本转换的功能,包括繁体简体互换、全角半角互换、汉字转拼音等,...

Global site tag (gtag.js) - Google Analytics