白名单,用户自己维护一个列表,记录可信任的IP和域名,源在列表中可直接接收。
黑名单,不受欢迎的IP和域名。
通过计算垃圾邮件的指纹,这需要维护一个垃圾邮件的指纹数据库。
启发示,为每个邮件打分,分数依靠邮件中出现的关键字加分,超过某个分数值则认为是垃圾邮件。
贝页斯算法。用户参与,不断学习和更新的算法。
企业借助Exchange和SendMail等服务器的反垃圾邮件功能可以实现部分需求。
普通用户借助Foxmail等软件内置的反垃圾邮件功能可以实现部分需求。
中国反垃圾邮件联盟地址:
http://anti-spam.org.cn/
中国反垃圾邮件中心
http://www.spam.com.cn/
目前在黑名单技术上最流行的是实时黑名单(Realtime Blackhole List,简称RBL)技术。通常该技术是通过DNS方式(查询和区域传输)实现的。目前国外流行的几个主要的实时黑名单服务器都是通过DNS方式提供的,如Mail-Abuse的RBL、RBL+等。国内目前只有本站发布了公开的RBL服务。
实时黑名单实际上是一个可供查询的IP地址列表,通过DNS的查询方式来查找一个IP地址的A记录是否存在来判断其是否被列入了该实时黑名单中。举例来说,比如如果要判断一个地址11.22.33.44是否被列入了黑名单,那么使用黑名单服务的软件会发出一个DNS查询到黑名单服务器(如cbl.anti-spam.org.cn),该查询是这样的:查找 44.33.22.11.cbl.anti-spam.org.cn 是否存在A记录?如果该地址被列入了黑名单,那么服务器会返回一个有效地址的答案。按照惯例,这个地址是127.0.0.0/8内的地址如127.0.0.2(之所以使用这个地址是因为127/8这个地址段被保留用于打环测试,除了127.0.0.1用于打环地址,其它的地址都可以被用来做这个使用,比如有时候还用127.0.0.3等。)。如果没有列入黑名单,那么查询会得到一个否定回答(NXDOMAIN)。
目前大多数的主流邮件服务器都支持实时黑名单服务,如Postfix、Qmail、Sendmail、IMail等等。
在有些情况下,你可能需要架设一个自己的实时黑名单服务器,用来为自己的邮件服务器或自己的用户提供实时黑名单服务。
架设黑名单服务器方法包括:
- 安装并运行一个DNS服务器。推荐BIND。
- 建立黑名单数据区域。比如,黑名单服务叫做myrbl.com,则在DNS中建立一个myrbl.com的区域(zone)。
- 建立黑名单数据,在区域数据文件中,添加你的黑名单数据。比如,将11.22.33.44加入黑名单,那么区域数据文件中应该有如下一行:44.33.22.11 IN A 127.0.0.2
- 如何建立一个合法的区域数据文件不再赘述,请参考各种DNS的配置手册。
- 重新启动你的DNS服务器。测试一下你刚刚加入的黑名单是否可以查询到:dig 44.33.22.11.myrbl.com.
- 如果查询结果中有解析的地址:127.0.0.2,那么黑名单服务器已经架设成功了。
- 最后,设置邮件服务器使用你自己的黑名单服务器。
邮件过滤技术(Mail Filter),实时黑名单技术是其中的一种特定的方法。
邮件过滤按照在邮件系统结构中的角色可以分为三类:
- MTA(邮件传输代理)过滤
- MDA(邮件递交代理)过滤
- MUA(邮件用户代理)过滤
MTA过滤是指MTA在会话过程中对会话的数据进行检查,对于符合过滤条件的邮件进行过滤处理。邮件会话过程中有两个阶段可以进行过滤:
- 邮件发送邮件数据前,即在发送DATA指令前的过滤。在发送DATA指令前,邮件对话可以在SMTP连接开始、HELO/EHLO指令、MAIL FROM指令和RCPT TO指令中对会话数据进行检查。
- SMTP连接时,可以检查客户端IP地址是不是特定的不允许连接的地址,如被列入黑名单IP就会被立刻拒绝连接。这里的黑名单可以是实时黑名单(RBL),也可以是访问列表。
- 对HELO/EHLO指令所提供的身份,可以检查是不是FQDN(完全限定域名,包括完整的主机名、域名的地址)、是不是要求的身份等。
- 对MAIL FROM指令所提供的邮件来源,可以检查是不是有效域(可以通过DNS反向查询检查)、是不是FQDN、是不是符合RFC822格式等。
- 对RCPT TO指令所提供邮件接收者,可以检查是不是属于允许转发的域、是不是符合RFC822格式、是不是通过认证的发信人等。
如果在检查中该会话符合过滤的条件,就可以按照过滤规则采取相应的动作,如直接在会话阶段断开连接、发出警告代码等。
邮件发送邮件数据前的检查也叫做信封检查。
- 邮件发送邮件数据后,即在发送DATA指令后的过滤。在通过一个点的单行结束DATA指令后,可以对DATA指令接收到的数据进行检查,这包括信头检查和信体检查。在DATA指令所传送的数据中,信头和信体是通过一个空行分隔开的。
- 信头检查。通常垃圾邮件在信头中都有一定的特征可供识别。通过这些特定信头字段可以很快地识别为垃圾邮件。
- 信体检查。有时候通过信头检查还不足以判断一封邮件是否是垃圾邮件,往往还要针对情况进行信体检查。
信头一般都比较小,通常在1KB-10KB之间,检查信头也比较快。而信体检查就要检查大量的数据,会给邮件服务器带来很大的负载,所以通常信体检查放在其他检查的后面进行。目前最流行的信体检查是贝叶斯(Bayes)算法的内容概率检查。
邮件发送邮件数据后的检查实际上是在邮件数据传输基本完毕后进行的,因此并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。
MDA过滤是指MDA在从MTA中接收到信件,在本地或远程进行递交时进行检查,对于符合过滤条件的邮件进行过滤处理。
很多的MDA都支持在这个过程进行过滤,如Procmail、Maildrop和Cyrus-IMAP等,甚至它们本身就是作为过滤器使用的。这些过滤器使用过滤语言(如Sieve,它是一个标准化的邮件过滤语言,现在已成为IETF标准)来制订过滤规则,因此配置比较灵活、功能强大。但是由于是在邮件递交阶段进行过滤,同MTA的邮件发送邮件数据后的检查一样,并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。
MTA和MDA过滤都是邮件服务器端的过滤,而MUA过滤是邮件用户的客户端的过滤。多数流行的邮件客户端,如Outlook、Outlook Express、Netscape Mail、Foxmail等都支持MUA过滤。
邮件过滤技术作为一个有效的对抗垃圾邮件的手段,就如同杀毒软件对病毒的查杀一样,也是需要不断根据情况更新邮件过滤规则的。通常都是管理员自行根据垃圾邮件监测情况来更新过滤规则。
邮件过滤是一项应用的相当早也相当广泛的技术,因而也发展的比较完善。绝大多数的主流邮件系统都支持邮件过滤,一些不直接支持该功能的邮件系统也可以通过补丁或外置的邮件过滤器来实现邮件过滤。
David Mertz博士提出一种利用Hashcash防范的方法,原理大概是用质询协议完成邮件的校验,具体参考:
http://anti-spam.org.cn/references/index.php?Action=Show&ID=10
博士的另一篇文章写得也相当好,标题叫《垃圾邮件过滤技术-消除不需要的电子邮件的六种方法》,见
http://anti-spam.org.cn/references/index.php?Action=Show&ID=3
梭子鱼产品的过滤法则:
-
垃圾邮件终止法则:若某一层过滤判定该邮件不合法或为垃圾,则立即阻断该邮件,结束进程,后面的各层检查不再进行。
- 按序检查法则:一个完整的smtp邮件发送从helo命令开始,因此从该进程的第一条命令开始依次进行检查。如发现为垃圾邮件,其余数据将不再接收。
- 低消耗优先法则:占用系统资源较少的过滤层优先,耗费系统资源大的过滤层靠后。这样,系统能以最少的消耗处理最大量的邮件。
- 安全优先法则,涉及到系统重要安全的检查先进行。
分享到:
相关推荐
机器学习是构建垃圾邮件过滤器的核心技术。它通过训练模型来区分垃圾邮件和非垃圾邮件。常见的机器学习算法包括朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、决策树(Decision Tree)和随机森林(Random Forest)...
学习笔记——Python实现垃圾邮件过滤-附件资源
最后,笔记可能还会涉及一些实际应用案例,如垃圾邮件过滤、情感分析、推荐系统等,以帮助读者将理论知识应用于实际问题。 通过阅读【机器学习个人笔记完整版v5.22.pdf】,读者可以系统地学习到机器学习的基础理论...
- **分类问题** (Classification): 输出为离散值,例如识别图像中的对象类别、判断电子邮件是否为垃圾邮件等。 #### 1.2 监督学习举例 ##### 1.2.1 回归问题 **例子**: 预测房价 - **特征**: 房屋面积 - **输出*...
邮件拦截系统可以帮助用户自动识别和过滤垃圾邮件,而视频播放器则支持多种视频格式的播放。此外,学习笔记详细介绍了PyQt5的使用方法和技巧。 该资源适合计算机科学专业的学生、软件开发初学者以及对PyQt5感兴趣的...
在Linux中配置Sendmail包括创建邮件路由、编写m4宏定义文件、调试邮件传递问题以及设置垃圾邮件过滤。 最后,掌握Linux命令行是所有Linux学习者的基础。例如,ls、cd、pwd用于目录操作,cat、more、less查看文件...
- **文本处理:** 包括网络搜索、垃圾邮件过滤等。 - **计算机视觉:** 如图像识别、视频分析等。 - **医疗信息:** 如疾病诊断、患者监测等。 #### 六、课程资源与更新记录 - **资源分享:** 视频、课件、中英文...
- **文本理解**:如Web搜索中的关键词匹配、垃圾邮件过滤等。 - **计算机视觉**:图像识别、人脸识别等技术在安防监控中的应用。 - **医疗信息处理**:通过对患者数据的分析来辅助医生做出更准确的诊断。 - **音频...
常见的应用场景包括邮件垃圾过滤、音频文本转录、语音识别、机器翻译等。有监督学习的目标是学会从输入数据到输出标签的映射关系,从而能够对新的输入数据进行预测。 在无监督学习方面,课程笔记中讨论了聚类和异常...
机器学习已经广泛应用于推荐系统、垃圾邮件过滤、信用评分、医疗诊断、自动驾驶等诸多领域。随着数据量的不断增长,机器学习将持续推动科技进步,为我们的生活带来更多的便利。 总结,这份"机器学习笔记"将全面介绍...
随着数据量的激增和技术的进步,机器学习的应用越来越广泛,从自动驾驶汽车、人脸识别系统到垃圾邮件过滤器等。 #### 二、业务理解 在进行机器学习项目之前,了解业务需求至关重要。这包括明确项目目标、定义关键...
机器学习已广泛应用于推荐系统、垃圾邮件过滤、医学诊断、自动驾驶、语音识别、自然语言处理等多个领域,带来了显著的社会经济效益。 总结,这份个人机器学习笔记全面覆盖了从基础理论到实际应用的知识点,对于初学...
互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域...
最后,吴恩达的课程通常会涵盖实际应用,如垃圾邮件检测、推荐系统和图像分类,帮助学生理解机器学习在现实世界中的应用和挑战。通过这门课程的学习,不仅可以掌握理论知识,还能获得实践技能,对于想要在机器学习...
朴素贝叶斯是一种广泛应用的机器学习算法,尤其在文本分类和垃圾邮件过滤等领域表现出色。它的理论基础是贝叶斯定理,同时依赖于特征条件独立性的假设。 **贝叶斯定理** 是概率论中的一个核心概念,它描述了在已知...
互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域...
- **垃圾邮件过滤**:通过算法识别并拦截垃圾邮件,保护用户免受垃圾邮件骚扰。 - **规则与筛选器**:用户可设置规则自动处理邮件,如自动分类、移动或删除。 - **邮件归档与备份**:长期保存重要邮件,防止数据...
朴素贝叶斯算法基于特征之间的独立性假设,常用于垃圾邮件过滤等分类任务。最后,XgBoost是梯度提升机的代表,它通过迭代构建弱预测器并优化目标函数,有效地结合了各个弱预测器的预测结果。 总的来说,这些机器...