方法一:使用正则表达式
1//脏字典数据存放文件路径
2 private static string FILE_NAME="zang.txt";
3 //脏数据字典表,如:脏数据一|脏数据二|脏数据三
4 public static string dirtyStr="";
5
6 public ValidDirty()
7 {
8 if (HttpRuntime.Cache["Regex"]==null)
9 {
10 dirtyStr=ReadDic();
11 //用于检测脏字典的正则表达式
12 Regex validateReg= new Regex("^((?!"+dirtyStr+").(?<!"+dirtyStr+"))*$",RegexOptions.Compiled|RegexOptions.ExplicitCapture);
13 HttpRuntime.Cache.Insert("Regex" ,validateReg,null,DateTime.Now.AddMinutes(20) ,TimeSpan.Zero);
14 }
15
16 }
17 private string ReadDic()
18 {
19 FILE_NAME=Environment.CurrentDirectory+"http://www.cnblogs.com/hsapphire/admin/file://%22+file_name/;
20
21 if (!File.Exists(FILE_NAME))
22 {
23 Console.WriteLine("{0} does not exist.", FILE_NAME);
24 return "";
25 }
26 StreamReader sr = File.OpenText(FILE_NAME);
27 String input="";
28 while (sr.Peek() > -1)
29 {
30 input += sr.ReadLine() ;
31 }
32
33 sr.Close();
34 return input;
35
36 }
37
38
39 public bool ValidByReg(string str)
40 {
41 Regex reg=(Regex)HttpRuntime.Cache["Regex"];
42 return reg.IsMatch(str) ;
43
44 }
感觉这种方法的执行效率不是很高,简单的测试了一下 1000字的文章,脏字典有800多个关键字
式了一下是 1.238秒,大家有没有更好的方法,请不吝赐教!
方法二:普通循环查找方法
public bool ValidGeneral(string str)
{
if(!File.Exists(FILE_NAME))
{
Console.WriteLine("文件路径或者文件路径不存在错误信息") ;
return false;
}
else
{
StreamReader objReader = new StreamReader(FILE_NAME,System.Text.Encoding.GetEncoding("gb2312"));
string sLine="";
ArrayList arrText = new ArrayList();
while (sLine != null)
{
sLine = objReader.ReadLine();
if (sLine != null)
arrText.Add(sLine);
}
objReader.Close();
foreach (string sOutput in arrText)
{
string[] strArr=sOutput.Split('|');
for (int i = 0; i < strArr.Length; i++)
{
if (str.IndexOf(strArr[i])!=-1)
{
return false;
}
}
}
return true;
}
}
以下是测试的方法,有什么问题还大家请指出!
1DateTime t1 =DateTime.Now;
2 string str="213";
3 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
4 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
5 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
6 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
7 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
8 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
9 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
10 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
11 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
12 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
13 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
14 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
15 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
16 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
17 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
18 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
19 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
20 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
21 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
22 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
23 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
24 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
25 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
26 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
27 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
28 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
29 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
30 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
31 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
32 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
33 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
34 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
35 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
36 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
37 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
38 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
39 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
40 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
41 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
42 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
43 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
44 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
45 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
46 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
47 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
48 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
49 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
50 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
51 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
52 str+="珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋珍惜水晶之恋";
53 ValidDirty vd=new ValidDirty() ;
54 Console.WriteLine(vd.ValidByReg(str)) ;
55 DateTime t2 =DateTime.Now;
56 TimeSpan ts=t2-t1;
57 Console.WriteLine(ts.TotalMilliseconds) ;
58 Console.Read() ;
算法
检索文本文件长度 / 耗费时间(ms)
正则算法
10个汉字/ 980
100个汉字/999
1000个汉字/1234
普通算法
10个汉字/ 234
100个汉字/234
1000个汉字/265
脏字典下载
分享到:
相关推荐
在.NET开发环境中,脏字过滤算法是用于检测和阻止不适当、敏感或恶意文本内容的常见工具。这种算法通常应用于论坛、社交媒体、评论系统等,以确保用户生成的内容符合社区准则。以下是对.NET脏字过滤算法代码的详细...
本实例介绍了一种高效的.NET脏字过滤算法,该算法可以快速有效地检测文本中是否存在黑名单词汇。以下是算法的详细解析: 1. **数据结构与变量**: - 使用`HashSet<string>`类型的`hash`变量存储所有关键词,提供...
.NET脏字过滤的算法代码
在本项目中,核心是`TrieFilter`工具类,它是一种基于Trie树的数据结构来实现的高效过滤算法。 Trie树,又称前缀树或字典树,是一种用于存储字符串的树形数据结构。它的每个节点代表一个字符串的前缀,而叶子节点则...
.NET脏字过滤算法是一种用于检测和屏蔽不恰当或冒犯性词汇的技术,常用于网络论坛、社交平台、在线游戏等用户内容生成环境中,以维持社区环境的健康。在.NET环境中,这种算法主要涉及到字符串处理和集合操作。本文档...
基于Java的脏字过滤器设计 本文提出了一种基于Java的脏字过滤器设计,旨在检测网络中不良的内容,避免这些不良网络文化侵蚀青少年的心灵健康。该设计的主要目的是为了保护青少年免受不良网络文化的影响,培养他们的...
脏字过滤算法主要用于屏蔽或替换那些不适宜出现在网站上的脏话、敏感词汇等。这种过滤对于防止不恰当内容的传播、保护青少年用户免受不良信息影响以及维护网站的健康运行至关重要。***环境下的脏字过滤通常是通过...
在IT行业中,尤其是在文本处理和数据安全领域,脏字过滤是一项至关重要的技术。"C#高效脏字过滤"是一个专门针对C#编程语言设计的脏字过滤解决方案,它由国外的专家开发,得到了广泛的认可。这个项目的目标是帮助...
自己整合的一个高性能过滤算法,其中算法来自(xingd.net博客,感谢作者)http://www.cnblogs.com/xingd/archive/2008/02/01/1061800.html 在这份源码中也有自己最初写的过滤方法,相比高性能过滤方法相比,相差了几百倍....
在IT行业中,脏字过滤是一项常见的需求,尤其是在社交媒体、论坛或者聊天应用中,为了维护良好的网络环境,通常需要对用户输入的内容进行筛查,过滤掉不适宜的词汇。本项目文件"**C#脏字过滤项目文件**"提供了一个...
4. **过滤算法**:脏字过滤的实现通常包括字符串匹配算法,如简单的精确匹配、模糊匹配(如正则表达式)或基于词典的算法。这些算法检查用户输入的每个单词,如果发现脏字,则进行替换、屏蔽或完全删除。 5. **编程...
我们网站的脏字字典中大概有600多个词,而且会发生变化,因此简单的在数据新增/修改的时候做一次脏字过滤是...在网站从.NET 1.1到2.0改版的时候,对新版的测试发现旧的脏字过滤算法耗费的时间过长,需要做一些优化。
【文章标题】:基于Java编程的脏字过滤器设计 【文章摘要】:为了减少网络中的不良信息对青少年的负面影响,本文提出了一种基于Java编程的脏字过滤软件设计,能够发现网页内容中的不良信息,方便网络管理员维护网络...
1万字文章在1毫秒内过虑1万关键词是一项高效的技术实现,这要求过滤算法具有极高的性能和优化。 在描述中提到的“博文链接:https://javatgo.iteye.com/blog/1318495”,虽然没有具体的内容,但我们可以推测该博文...
首先,该组件的核心功能是进行敏感词(非法词/脏字)检测与过滤。这意味着它能识别并阻止或替换那些可能引发法律问题、道德争议或者不适宜公开的词汇。在互联网环境中,这样的功能对于维护网络环境的和谐,保护用户...
在脏字过滤的场景下,我们可以将待检查的文本拆分成多个部分,每个部分由一个独立的线程进行处理。这样,检查过程可以同时进行,显著减少了整体的处理时间。例如,在描述中提到的“三十万个关键字过滤”,如果单线程...