中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

CCERT中文垃圾郵件過(guò)濾規(guī)則集

2018-06-23    來(lái)源:

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

1. 什么是 Chinese_rules.cf

Chinese_rules.cf是用于業(yè)界廣泛使用的免費(fèi)垃圾郵件過(guò)濾系統(tǒng)SpamAssassin的中文垃圾郵件過(guò)濾規(guī)則集。由于以前沒(méi)有中文的過(guò)濾規(guī)則集,SpamAssassin對(duì)中文郵件過(guò)濾的準(zhǔn)確性不高。CCERT反垃圾郵件研究小組利用CCERT所掌握的最新和豐富的樣本數(shù)據(jù),推出了第一個(gè)基于SpamAssassin的中文垃圾郵件過(guò)濾規(guī)則集Chinese_rules.cf。該規(guī)則集每周更新一次,時(shí)效性非常好。
Chinese_rules.cf是在SpamAssassin 官方網(wǎng)站上發(fā)布的第一個(gè)中文垃圾郵件過(guò)濾規(guī)則集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾郵件過(guò)濾”時(shí)所返回的第一條結(jié)果。

2. Chinese_rules.cf的理論背景

Chinese_rules.cf是郵件內(nèi)容過(guò)濾規(guī)則集。目前郵件內(nèi)容過(guò)濾技術(shù)可以分為兩種方法:基于規(guī)則和基于統(tǒng)計(jì)的方法;谝(guī)則的方法就是在郵件內(nèi)容中尋找特定的模式,例如主題包含“免費(fèi)”;诮y(tǒng)計(jì)的就是使用統(tǒng)計(jì)方法解決郵件的二元分類(lèi)問(wèn)題,其中分類(lèi)機(jī)跟據(jù)垃圾郵件和正常郵件的樣本訓(xùn)練出來(lái)。在垃圾郵件過(guò)濾技術(shù)中最常用的統(tǒng)計(jì)方法就是貝葉斯準(zhǔn)則。
基于規(guī)則方法的優(yōu)點(diǎn)是規(guī)則可以共享,因此它的推廣性很強(qiáng)。一個(gè)人寫(xiě)出的規(guī)則可以提供給多個(gè)人,多個(gè)服務(wù)器使用。然而它的缺點(diǎn)就是更新速度慢。因?yàn)橐?guī)則一般都是人工編寫(xiě)生成,所以新規(guī)則的產(chǎn)生速度跟不上新垃圾郵件出現(xiàn)的速度,換句話(huà)說(shuō),它的時(shí)效性較差。
基于統(tǒng)計(jì)的方法的優(yōu)點(diǎn)就是分類(lèi)機(jī)由程序自動(dòng)訓(xùn)練出來(lái),只要及時(shí)更新樣本訓(xùn)練集就可以使分類(lèi)機(jī)更新的速度跟得上垃圾郵件出現(xiàn)的速度,即它的時(shí)效性很強(qiáng)。然而該方法的缺點(diǎn)就是分類(lèi)機(jī)不能共享,某個(gè)用戶(hù)用自己的郵件樣本集訓(xùn)練出來(lái)的分類(lèi)機(jī)對(duì)其他用戶(hù)可能效果不佳,因此該方法的推廣性較差。
Chinese_rules.cf使用基于統(tǒng)計(jì)規(guī)則的新方法,即它所使用的規(guī)則是由統(tǒng)計(jì)方法自動(dòng)生成的。該方法吸取了基于規(guī)則和基于統(tǒng)計(jì)的優(yōu)點(diǎn):因?yàn)樗且环N基于規(guī)則的方法,因此推廣性很強(qiáng),又因?yàn)樗囊?guī)則是由統(tǒng)計(jì)方法自動(dòng)生成的,因此它的時(shí)效性也很強(qiáng)。Chinese_rules.cf和傳統(tǒng)方法比較如表1所示。

表1、Chinese_rules.cf和傳統(tǒng)方法比較

  推廣性 時(shí)效性
基于規(guī)則
基于統(tǒng)計(jì)
Chinese_rules.cf

CCERT反垃圾郵件組自從1998年成立以來(lái),每天都處理大量的垃圾郵件投訴,掌握最新和最豐富的樣本數(shù)據(jù)。Chinese_rules.cf就在此最新和最豐富的樣本數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過(guò)統(tǒng)計(jì)方法自動(dòng)產(chǎn)生的。

3. Chinese_rules.cf的生成和使用框架

Chinese_rules.cf的生成和使用框架如圖1所示。首先,利用CCERT垃圾郵件處理服務(wù)和用戶(hù)反饋信息來(lái)維護(hù)一個(gè)最新,最全的垃圾/正常郵件樣本庫(kù),再利用統(tǒng)計(jì)方法,根據(jù)垃圾/正常郵件樣本庫(kù)自動(dòng)生成規(guī)則集Chinese_rules.cf。因?yàn)闃颖編?kù)是最新的,Chinse_rules.cf的時(shí)效性就非常強(qiáng)。CCERT把該規(guī)則集在CCERT主頁(yè)上發(fā)布,作為CCERT提供的一種對(duì)外服務(wù)。各地用戶(hù)(服務(wù)器)通過(guò)CCERT主頁(yè)下載Chinese_rules.cf,這樣使Chinese_rules.cf的推廣性很強(qiáng)。

圖1、Chinese_rules.cf 的生成和使用框架

4. Chinese_rules.cf的匹配速度問(wèn)題

Chinese_rules.cf規(guī)則集一般被控制在500個(gè)規(guī)則左右。這一數(shù)字也許使人對(duì)Chinese_rules.cf的匹配速度有點(diǎn)置疑。仔細(xì)分析和測(cè)試結(jié)果表明Chinese_rules.cf的匹配性能還是比較高的,原因是:一、Chinese_rules.cf的規(guī)則都很簡(jiǎn)單,都是一個(gè)比較短的字符串,中間沒(méi)有帶任何一個(gè)通配符,這樣匹配速度比復(fù)雜的規(guī)則要快的多;二、Chinese_rules.cf中有90%是郵件主題的規(guī)則,只有10%是信體的規(guī)則。由于郵件主題往往比較短,因此Chinese_rules.cf的匹配速度會(huì)比較快。
以上是對(duì)性能的理論分析。我們用一臺(tái)普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 對(duì)178482封郵件匹配,則結(jié)果是平均匹配一封大小為5.0K的郵件只需要 0.04秒。這個(gè)結(jié)果實(shí)非常好的,因?yàn)槿绻粋(gè)郵件服務(wù)器的郵件平均大小為5.0K(不算附件),那么只要一臺(tái)普通PC每天就可以處理216萬(wàn)封郵件。一般的學(xué)生郵件服務(wù)器每天收發(fā)30萬(wàn)封左右。換句話(huà)說(shuō),只要在現(xiàn)有的郵件服務(wù)器加上如同上述一臺(tái)PC的處理性能就足以滿(mǎn)足處理垃圾郵件的硬件需求。

5. Chinese_rules.cf 的準(zhǔn)確率

Chinese_rules.cf的每一個(gè)版本都帶有對(duì)準(zhǔn)確率的測(cè)試結(jié)果。當(dāng)前版本的測(cè)試結(jié)果如下:

Chinese_rules.cf,2005 Jan 2


閾值 垃圾郵件查全率
(共16729)
正常郵件誤判率
(共93655)

0.5 95.0% 5.1%
1.0 92.9% 1.6%
1.5 90.4% 0.4%
2.0 87.9% 0.1%
2.5 84.5% 0.0%
3.0 81.1% 0.0%
3.5 76.6% 0.0%
4.0 72.4% 0.0%
4.5 67.0% 0.0%

掃描一封郵件大小為 1932.37 字節(jié)需要 0.03 秒(P4-2.8G CPU)

表2中的結(jié)果就是在測(cè)試規(guī)程中,除了Chinese_rules.cf 以外不使用其他任何規(guī)則。在實(shí)際情況,Chinese_rules.cf一般都會(huì)跟SpamAssassin的缺省規(guī)則同時(shí)使用。因?yàn)镾pamAssassin的缺省規(guī)則中有一部分是描述郵件行為的規(guī)則,對(duì)檢測(cè)中文垃圾郵件起作用,因此實(shí)際的性能會(huì)比以上實(shí)驗(yàn)結(jié)果要好。
注意、 對(duì)于每天處理40萬(wàn)封郵件以上的郵件服務(wù)器來(lái)說(shuō),能夠容忍的性能是正常郵件誤判率小于5%的同時(shí),垃圾郵件的檢測(cè)率大于90%。

6. Chinese_rules.cf 的用戶(hù)統(tǒng)計(jì)

CCERT于2004年9月7日在網(wǎng)上發(fā)布Chinese_rules.cf。從9月至12月的用戶(hù)統(tǒng)計(jì)情況如下。圖2就是用戶(hù)查看規(guī)則集的統(tǒng)計(jì)(按IP)?梢钥闯鲆(guī)則集的知名度在直續(xù)上升。

圖2、用戶(hù)查看規(guī)則集統(tǒng)計(jì)(按IP)

圖3就是在Unix/Linux服務(wù)器上使用的用戶(hù)統(tǒng)計(jì)(安不同IP),其中深灰色表示老客戶(hù),即上個(gè)月已經(jīng)出現(xiàn)的IP。

圖3、用戶(hù)使用規(guī)則集統(tǒng)計(jì)(按不同IP)

7. Chinese_rules.cf 的使用方法

下載Chinese_rules.cf,把該規(guī)則放在SpamAssassin存放規(guī)則的目錄(一般在/usr/share/spamassassin)。通過(guò)wget下載的命令如下:

# wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf

每次更新Chinese_rules.cf都需要重啟加載SpamAssassin規(guī)則的程序。如果你用spamd則通常重啟的方法是:

# ps –ax | grep spamd
察看spamd進(jìn)程的PID,然后
# kill -HUP PID
如果你用mimedefang則要重起mimedefang。假設(shè)mimedefang的重起腳本為 /etc/init.d/init-script, 則命令如下:

# /etc/init.d/init-script restart

CCERT每周更新一次規(guī)則集和相應(yīng)分?jǐn)?shù),更新使用CCERT反垃圾郵件服務(wù)在6個(gè)月內(nèi)處理過(guò)的垃圾郵件為樣本。經(jīng)常更新Chinese_rules.cf會(huì)使過(guò)濾效果更好。只要把上述下載命令以及重起mimedefang的命令放在crontab中,并定期運(yùn)行就可以完成自動(dòng)更新功能。假如你想一個(gè)月更新一次,那么在root的crontab中應(yīng)該添加一行:

0 0 1 * * wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf; /etc/init.d/init-script restart

標(biāo)簽: Google linux 服務(wù)器 服務(wù)器使用 腳本 數(shù)據(jù)庫(kù) 搜索 推廣

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:RBL技術(shù)全面構(gòu)建反垃圾郵件網(wǎng)絡(luò)

下一篇:安全問(wèn)答:如何追查惡意郵件真兇