中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

CCERT中文垃圾郵件過濾規(guī)則集

2018-06-23    來源:

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

1. 什么是 Chinese_rules.cf

Chinese_rules.cf是用于業(yè)界廣泛使用的免費(fèi)垃圾郵件過濾系統(tǒng)SpamAssassin的中文垃圾郵件過濾規(guī)則集。由于以前沒有中文的過濾規(guī)則集,SpamAssassin對中文郵件過濾的準(zhǔn)確性不高。CCERT反垃圾郵件研究小組利用CCERT所掌握的最新和豐富的樣本數(shù)據(jù),推出了第一個基于SpamAssassin的中文垃圾郵件過濾規(guī)則集Chinese_rules.cf。該規(guī)則集每周更新一次,時效性非常好。
Chinese_rules.cf是在SpamAssassin 官方網(wǎng)站上發(fā)布的第一個中文垃圾郵件過濾規(guī)則集,也是用Google,Yahoo,百度,MSN搜索“中文垃圾郵件過濾”時所返回的第一條結(jié)果。

2. Chinese_rules.cf的理論背景

Chinese_rules.cf是郵件內(nèi)容過濾規(guī)則集。目前郵件內(nèi)容過濾技術(shù)可以分為兩種方法:基于規(guī)則和基于統(tǒng)計(jì)的方法。基于規(guī)則的方法就是在郵件內(nèi)容中尋找特定的模式,例如主題包含“免費(fèi)”;诮y(tǒng)計(jì)的就是使用統(tǒng)計(jì)方法解決郵件的二元分類問題,其中分類機(jī)跟據(jù)垃圾郵件和正常郵件的樣本訓(xùn)練出來。在垃圾郵件過濾技術(shù)中最常用的統(tǒng)計(jì)方法就是貝葉斯準(zhǔn)則。
基于規(guī)則方法的優(yōu)點(diǎn)是規(guī)則可以共享,因此它的推廣性很強(qiáng)。一個人寫出的規(guī)則可以提供給多個人,多個服務(wù)器使用。然而它的缺點(diǎn)就是更新速度慢。因?yàn)橐?guī)則一般都是人工編寫生成,所以新規(guī)則的產(chǎn)生速度跟不上新垃圾郵件出現(xiàn)的速度,換句話說,它的時效性較差。
基于統(tǒng)計(jì)的方法的優(yōu)點(diǎn)就是分類機(jī)由程序自動訓(xùn)練出來,只要及時更新樣本訓(xùn)練集就可以使分類機(jī)更新的速度跟得上垃圾郵件出現(xiàn)的速度,即它的時效性很強(qiáng)。然而該方法的缺點(diǎn)就是分類機(jī)不能共享,某個用戶用自己的郵件樣本集訓(xùn)練出來的分類機(jī)對其他用戶可能效果不佳,因此該方法的推廣性較差。
Chinese_rules.cf使用基于統(tǒng)計(jì)規(guī)則的新方法,即它所使用的規(guī)則是由統(tǒng)計(jì)方法自動生成的。該方法吸取了基于規(guī)則和基于統(tǒng)計(jì)的優(yōu)點(diǎn):因?yàn)樗且环N基于規(guī)則的方法,因此推廣性很強(qiáng),又因?yàn)樗囊?guī)則是由統(tǒng)計(jì)方法自動生成的,因此它的時效性也很強(qiáng)。Chinese_rules.cf和傳統(tǒng)方法比較如表1所示。

表1、Chinese_rules.cf和傳統(tǒng)方法比較

  推廣性 時效性
基于規(guī)則
基于統(tǒng)計(jì)
Chinese_rules.cf

CCERT反垃圾郵件組自從1998年成立以來,每天都處理大量的垃圾郵件投訴,掌握最新和最豐富的樣本數(shù)據(jù)。Chinese_rules.cf就在此最新和最豐富的樣本數(shù)據(jù)庫的基礎(chǔ)上,通過統(tǒng)計(jì)方法自動產(chǎn)生的。

3. Chinese_rules.cf的生成和使用框架

Chinese_rules.cf的生成和使用框架如圖1所示。首先,利用CCERT垃圾郵件處理服務(wù)和用戶反饋信息來維護(hù)一個最新,最全的垃圾/正常郵件樣本庫,再利用統(tǒng)計(jì)方法,根據(jù)垃圾/正常郵件樣本庫自動生成規(guī)則集Chinese_rules.cf。因?yàn)闃颖編焓亲钚碌,Chinse_rules.cf的時效性就非常強(qiáng)。CCERT把該規(guī)則集在CCERT主頁上發(fā)布,作為CCERT提供的一種對外服務(wù)。各地用戶(服務(wù)器)通過CCERT主頁下載Chinese_rules.cf,這樣使Chinese_rules.cf的推廣性很強(qiáng)。

圖1、Chinese_rules.cf 的生成和使用框架

4. Chinese_rules.cf的匹配速度問題

Chinese_rules.cf規(guī)則集一般被控制在500個規(guī)則左右。這一數(shù)字也許使人對Chinese_rules.cf的匹配速度有點(diǎn)置疑。仔細(xì)分析和測試結(jié)果表明Chinese_rules.cf的匹配性能還是比較高的,原因是:一、Chinese_rules.cf的規(guī)則都很簡單,都是一個比較短的字符串,中間沒有帶任何一個通配符,這樣匹配速度比復(fù)雜的規(guī)則要快的多;二、Chinese_rules.cf中有90%是郵件主題的規(guī)則,只有10%是信體的規(guī)則。由于郵件主題往往比較短,因此Chinese_rules.cf的匹配速度會比較快。
以上是對性能的理論分析。我們用一臺普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 對178482封郵件匹配,則結(jié)果是平均匹配一封大小為5.0K的郵件只需要 0.04秒。這個結(jié)果實(shí)非常好的,因?yàn)槿绻粋郵件服務(wù)器的郵件平均大小為5.0K(不算附件),那么只要一臺普通PC每天就可以處理216萬封郵件。一般的學(xué)生郵件服務(wù)器每天收發(fā)30萬封左右。換句話說,只要在現(xiàn)有的郵件服務(wù)器加上如同上述一臺PC的處理性能就足以滿足處理垃圾郵件的硬件需求。

5. Chinese_rules.cf 的準(zhǔn)確率

Chinese_rules.cf的每一個版本都帶有對準(zhǔn)確率的測試結(jié)果。當(dāng)前版本的測試結(jié)果如下:

Chinese_rules.cf,2005 Jan 2


閾值 垃圾郵件查全率
(共16729)
正常郵件誤判率
(共93655)

0.5 95.0% 5.1%
1.0 92.9% 1.6%
1.5 90.4% 0.4%
2.0 87.9% 0.1%
2.5 84.5% 0.0%
3.0 81.1% 0.0%
3.5 76.6% 0.0%
4.0 72.4% 0.0%
4.5 67.0% 0.0%

掃描一封郵件大小為 1932.37 字節(jié)需要 0.03 秒(P4-2.8G CPU)

表2中的結(jié)果就是在測試規(guī)程中,除了Chinese_rules.cf 以外不使用其他任何規(guī)則。在實(shí)際情況,Chinese_rules.cf一般都會跟SpamAssassin的缺省規(guī)則同時使用。因?yàn)镾pamAssassin的缺省規(guī)則中有一部分是描述郵件行為的規(guī)則,對檢測中文垃圾郵件起作用,因此實(shí)際的性能會比以上實(shí)驗(yàn)結(jié)果要好。
注意、 對于每天處理40萬封郵件以上的郵件服務(wù)器來說,能夠容忍的性能是正常郵件誤判率小于5%的同時,垃圾郵件的檢測率大于90%。

6. Chinese_rules.cf 的用戶統(tǒng)計(jì)

CCERT于2004年9月7日在網(wǎng)上發(fā)布Chinese_rules.cf。從9月至12月的用戶統(tǒng)計(jì)情況如下。圖2就是用戶查看規(guī)則集的統(tǒng)計(jì)(按IP)?梢钥闯鲆(guī)則集的知名度在直續(xù)上升。

圖2、用戶查看規(guī)則集統(tǒng)計(jì)(按IP)

圖3就是在Unix/Linux服務(wù)器上使用的用戶統(tǒng)計(jì)(安不同IP),其中深灰色表示老客戶,即上個月已經(jīng)出現(xiàn)的IP。

圖3、用戶使用規(guī)則集統(tǒng)計(jì)(按不同IP)

7. Chinese_rules.cf 的使用方法

下載Chinese_rules.cf,把該規(guī)則放在SpamAssassin存放規(guī)則的目錄(一般在/usr/share/spamassassin)。通過wget下載的命令如下:

# wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf

每次更新Chinese_rules.cf都需要重啟加載SpamAssassin規(guī)則的程序。如果你用spamd則通常重啟的方法是:

# ps –ax | grep spamd
察看spamd進(jìn)程的PID,然后
# kill -HUP PID
如果你用mimedefang則要重起mimedefang。假設(shè)mimedefang的重起腳本為 /etc/init.d/init-script, 則命令如下:

# /etc/init.d/init-script restart

CCERT每周更新一次規(guī)則集和相應(yīng)分?jǐn)?shù),更新使用CCERT反垃圾郵件服務(wù)在6個月內(nèi)處理過的垃圾郵件為樣本。經(jīng)常更新Chinese_rules.cf會使過濾效果更好。只要把上述下載命令以及重起mimedefang的命令放在crontab中,并定期運(yùn)行就可以完成自動更新功能。假如你想一個月更新一次,那么在root的crontab中應(yīng)該添加一行:

0 0 1 * * wget -N -P /usr/share/spamassassin www.ccert.edu.cn/spam/sa/Chinese_rules.cf; /etc/init.d/init-script restart

標(biāo)簽: Google linux 服務(wù)器 服務(wù)器使用 腳本 數(shù)據(jù)庫 搜索 推廣

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:RBL技術(shù)全面構(gòu)建反垃圾郵件網(wǎng)絡(luò)

下一篇:安全問答:如何追查惡意郵件真兇