过滤敏感文字

lz12366

浏览: 420138 次
性别:
来自: 济南

最近访客更多访客>>

rocex

hqb732

sunjor

oznyang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

web应用

Java 正则表达式 BBS Unix

我们做博客或bbs时；文章中经常会有些敏感词要去掉;
以下是一个java实现这个功能的小例题:
两个个文件words.properties和KeyWordFilter.java;

1、words.properties文件是个文本文件；内容如下:
敏感词一
敏感词二
敏感词三

2、KeyWordFilter.java是个java文件内容如下:

import java.io.IOException;
import java.io.InputStream;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Enumeration;
import java.util.Properties;
import java.util.regex.Pattern;
import java.util.regex.Matcher;
public class KeyWordFilter 
{
 private static Pattern pattern = null;
 // 从words.properties初始化正则表达式字符串
 private static void initPattern()
 {
  StringBuffer patternBuf = new StringBuffer("");
  try
  {
   InputStream in = KeyWordFilter.class.getClassLoader().getResourceAsStream("words.properties");
   Properties pro = new Properties();
   pro.load(in);
   Enumeration enu = pro.propertyNames(); 
   patternBuf.append("(");
   while(enu.hasMoreElements())
   {
    patternBuf.append((String)enu.nextElement()+"|");

//注意这里是构造一个正则表达式
   }
   patternBuf.deleteCharAt(patternBuf.length()-1);
   patternBuf.append(")");
  
//unix换成UTF-8
   //pattern = Pattern.compile(new String(patternBuf.toString().getBytes("ISO-8859-1"), "UTF-8"));
//win下换成gb2312
   pattern = Pattern.compile(new String(patternBuf.toString().getBytes("ISO-8859-1"), "gb2312"));
  }
  catch(IOException ioEx)
  {
   ioEx.printStackTrace();
  }
 }
 private static String doFilter(String str)
 {
  Matcher m = pattern.matcher(str);
  str = m.replaceAll("");
  return str;
 }
 
 public static void main(String[] args)
 {
  String str = "国敏感词一院学位办就敏感词三的报道表示敏感词二";
  System.out.println("str:"+str);
  initPattern();
  Date d1 = new Date();
  SimpleDateFormat formatter = new SimpleDateFormat("EEE, d MMM yyyy HH:mm:ss:SSS Z");
  System.out.println("start:"+formatter.format(d1));
  System.out.println("共"+str.length()+"个字符，查到" + KeyWordFilter.doFilter(str));
  Date d2 = new Date();
  System.out.println("end:"+formatter.format(d2));
 }
 
}

输出为:
__________________________________
str:国敏感词一院学位办就敏感词三的报道表示敏感词二
start:星期二, 24 三月 2009 14:50:17:171 +0800
共23个字符，查到国院学位办就的报道表示
end:星期二, 24 三月 2009 14:50:17:531 +0800

分享到：

java语言解析xml文件 | 字符串的==你真理解了？？

2010-04-23 16:33
浏览 1470
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

过滤敏感文字

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

过滤敏感文字

评论

发表评论

相关推荐

IE中的条件编译

ClientAbortException: java.net.SocketException: Connection reset by peer: socke

（转）实现Ajax请求队列按顺序执行

关于无法delete文件

firefox上传文件

HTML标签的<button>导致数据在firefox自动提交和在firefox里面弹出div窗口失败

转：Div自适应高度

在eclipse里jsp编译后的java和class文件的位置

iframe的属性：document和Document以及Document的属性和iframe在各个浏览器获得内部文档的写法

浏览器加载显示html的顺序

PreparedStatement setString 特殊字符乱码

符编码笔记：ASCII，Unicode和UTF-8

自己写的多表单插入数据和几个form同时提交

获得IEditorPart和IDocument

黑客利用js--alert（1）

Tomcat的Classloader

Tomcat启动过程

Spring中bean的作用域

@SuppressWarnings("*****")

各种类型文件中java的形式

最近访客更多访客>>