保留字、敏感词过滤是网站系统必不可少的2个功能。
(1)保留字:Reserved Words
也叫关键字(Keywords),编程语言预留的有特殊含义的单词,不能用于变量名、函数名等。
Java:
引用
public、class、while、continue、extends等。
const和goto是Java的两个保留字,虽然Java并没有使用它们,但也不能被用作标识符。
https://docs.oracle.com/javase/tutorial/java/nutsandbolts/_keywords.html
SQL:
引用
select、from、where等。
https://www.postgresql.org/docs/current/static/sql-keywords-appendix.html
*** PostgreSQL允许使用保留字,但是需要用双引号括起来。
可以在这里查询保留字:
http://www.reservedwordsearch.com/
这里要说的不是编程语言的保留字,而是在系统开发时的保留字。很多网站为了用户更容易记住个人主页提供“个性域名”功能。
- 二级域名方式:http://rensanning.iteye.com/
- 二级目录方式:http://www.weibo.com/rensanning
无论哪种提供方式,想象一下如果把以下2个个性域名开放给用户注册,会让其他用户以为进入了系统界面。
引用
http://www.weibo.com/help
http://help.weibo.com/
而新浪微博就是一个典型的例子,比如以下这些个性域名没有被预先保留被用户注册了,估计还有很多。
引用
http://www.weibo.com/index
http://www.weibo.com/help
http://www.weibo.com/about
http://www.weibo.com/support
http://www.weibo.com/term
http://www.weibo.com/privacy
http://www.weibo.com/contact
正确的做法,看看GitHub就知道了。
引用
https://github.com/rensanning
https://github.com/about
https://github.com/blog
Twitter的用户名保留一览:
https://dev.twitter.com/rest/reference/get/help/configuration
引用
"about", "account", "accounts", "activity", "all", "announcements", "anywhere", "api_rules", "api_terms", "apirules", "apps", "auth", "badges", "blog", "business", "buttons", "contacts", "devices", "direct_messages", "download", "downloads", "edit_announcements", "faq", "favorites", "find_sources", "find_users", "followers", "following", "friend_request", "friendrequest", "friends", "goodies", "help", "home", "i", "im_account", "inbox", "invitations", "invite", "jobs", "list", "login", "logo", "logout", "me", "mentions", "messages", "mockview", "newtwitter", "notifications", "nudge", "oauth", "phoenix_search", "positions", "privacy", "public_timeline",
"related_tweets", "replies", "retweeted_of_mine", "retweets", "retweets_by_others", "rules", "saved_searches", "search", "sent", "sessions", "settings", "share", "signup", "signin", "similar_to", "statistics", "terms", "tos", "translate", "trends", "tweetbutton", "twttr", "update_discoverability", "users", "welcome", "who_to_follow", "widgets", "zendesk_auth", "media_signup"
常见的如下:
引用
首页index/home/top、帮助help、关于about、联系方式contact、常见问题faq、技术支持support、友情链接links、文档doc、新闻news、网站地图sitemap、价格price/plan、规约term、隐私privacy、登录/退出/注册(login, logout, signup, signin, signout, account)、其他(wiki、rss、api、search)。
(2)敏感词:Sensitive Words 或 NG Words
敏感词包括政治敏感信息、暴力犯罪信息、不文明信息、不健康信息、竞品信息、电商交易信息等。但也不局限于这些,任何不合适发布的违规词都需要做屏蔽处理。对于敏感词,发布信息时会被禁止或者被自动替换为星号(*)或叉号(X)等,而搜索引擎直接不予执行搜索。比如在新浪微博搜索敏感词直接会显示:根据相关法律法规和政策,“xxxx”搜索结果未予显示。
在网上可以找到一些常见的敏感词库或过滤词库,但对于系统来说敏感词库是不固定的,会不同时时机增加或解禁。
分享到:
相关推荐
在IT领域,尤其是在文本处理和信息安全中,敏感词检测是一个重要的功能。本项目提供了一个C++实现的中英文敏感词检测工具类,该工具能够帮助开发者检查文本中是否存在特定的关键字,并在找到时进行替换,以保护数据...
这通常涉及到将文本中的中文、英文和数字字符保留,其他的字符过滤掉,同时记录并返回敏感词。 ```javascript // 判断文本中是否存在敏感词 function filterSensitiveWord(txt, sensitiveMap) { // 这里实现过滤...
先通过pip或easy_install安装bottle框架再修改localbottle里的端口设置和域名设置,再使用python启动即可*通过云环境的需要修改一下配置,保留wsgi.py,具体参考云环境的说明 更新说明 2014/10/7 1.完成核心检测和...
- 敏感词设置需要更新到指定版本的客户端才能生效,并且需要确保管理员和成员登录的是同一企业。 - 敏感词规则对内部单聊可能不生效,但对其他会话有效。 9. **在职继承功能**: - 继承人需要实名和激活,但不能...
支持中文匹配的Wu-Manber算法通过对原有算法进行改进,不仅保留了其高效的性能特点,还扩展了其应用范围至中文文本处理领域。这种改进对于实际应用场景中需要处理大量中文文本的情况非常有价值。
3. **SQL关键字**:SQL语言中的一些保留字如`SELECT`, `INSERT`, `DELETE`, `DROP TABLE`等,如果这些关键字出现在用户的输入中且未经处理就直接用于SQL查询语句,可能会引发SQL注入攻击。 4. **脚本代码**:内联的...
系统内置了常用无意字词和标点的过滤。当然针对文章等分词时可以屏蔽过滤功能。 4. 控制符过滤功能。 可以设置属性值,在分词结果中保留回车换行等控制字符,从而保留原来的显示结构。 5. 内置10万多条基本词库...
- 提供语音转文字、音量识别、语速识别、关键词和敏感词解析等功能,支持智能回访和客服坐席应用。 5. **总体应用架构**: - 该架构涉及网点云呼平台、IVR、坐席配置、话务分配、质量监控等,利用智能语音能力...
- 解法示例:遍历字符串,遇到连续的空格只保留一个,其余忽略。 - **字符串转整型**: - 任务:编写一个方法,将一个字符串类型的数字转换为整型。 - 解法示例:通过循环遍历字符串中的每一个字符,将其转换为...
【百度K站】是搜索引擎优化(SEO)领域中一个令人头疼的问题,主要指的是百度等搜索引擎对网站采取的一种惩罚措施,即删除网站所有或大部分页面,甚至仅保留首页。这种情况通常是由于网站存在违反搜索引擎规则或作弊...
* 通过设置关键词、有害词、敏感词,或通过设置某一舆情的潜在专题信息做出舆情预警。 * 将人工检索以及自动生成热点的相关联多种特征数据(时间分布、传播路径、话题演化、地域分布等)整合处理,并以多种形式...
11、修改某些有可能和数据库保留字相冲突的字段; 12、修正栏目页静态化后翻页问题; 13、新增后台登录、会员登录、评论时的验证码; 14、修正后台管理员权限控制问题; 15、站点管理修正。去掉一些没有的字段,...
7. **实战应用**:字符过滤常应用于各种场景,如网页表单提交时的数据验证,防止SQL注入,聊天软件中的敏感词过滤,文件名或路径的合法性检查等。 8. **扩展与优化**:除了基本的字符过滤,还可以考虑增加多线程...
在清洗过程中,我们可能需要保留含有正面词根的长尾词,而移除负面词根的词汇,以确保优化的方向符合SEO策略。 在实际应用中,AC自动机还可以结合其他NLP(自然语言处理)技术,如词性标注、命名实体识别等,进一步...
(3) 数字,间隔符号删除,只保留中文跟英文 (4) 句子分词后用空格隔开 (5) 分词:jieba (6) 数据标准化 (7) 数量:去重后 负样本:50万条左右 敏感词过滤 (1) 筛选敏感词 (2) 创建字典 特征提取过程 ...
使用该软件必须保留鸿思特的版权声明,将该软件从原有自然语言文字转换成另一自然语言文字的,仍应注明出处。当您的网站使用本论坛后,您论坛内容中所涉及的一切法律责任均与鸿思特无关。在没有特别说明的情况下,...
使用该软件必须保留鸿思特的版权声明,将该软件从原有自然语言文字转换成另一自然语言文字的,仍应注明出处。当您的网站使用本论坛后,您论坛内容中所涉及的一切法律责任均与鸿思特无关。在没有特别说明的情况下,...
23. CM:3002 - 命令字错误:命令字错误或不被识别。 24. CM:3003 - 消息序号重复:消息序号已被使用过,不能重复。 25. CM:3004 - 消息长度错误:短信长度超过限制。 26. CM:3005 - 资费代码错误:使用的资费代码...