一種改進的旋轉森林算法的網(wǎng)絡流量分類
針對不平衡網(wǎng)絡流量分類精度不高的問題,在旋轉森林算法的基礎上結合Bagging算法的Bootstrap抽樣和基于分類精度排序的基分類器選擇算法,提出一種改進的旋轉森林算法。首先,對原始訓練集按特征進行子集劃分并分別使用Bagging進行樣本抽樣,通過主成分分析(PCA)生成主成分系數(shù)矩陣;然后,在原始訓練集和主成分系數(shù)矩陣的基礎上進行特征轉換,生成新的訓練子集,再次使用Bagging對子集進行抽樣,提升訓練集的差異性,并使用訓練子集訓練C4.5基分類器;最后,使用測試集評價基分類器,依據(jù)總體分類精度進行排序篩選,保留分類精度較高的分類器并生成一致分類結果。在不平衡網(wǎng)絡流量數(shù)據(jù)集上進行測試實驗,依據(jù)準確率和召回率兩個標準對C4.5、Bagging、旋轉森林和改進的旋轉森林四種算法評價,依據(jù)模型訓練時間和測試時間評價四種算法的時間效率。實驗結果表明改進的旋轉森林算法對萬維網(wǎng)( WWW)協(xié)議、Mail協(xié)議、Attack協(xié)議、對等網(wǎng)(P2P)協(xié)議的分類準確度達到99. 5%以上,召回率也高于旋轉森林、Bagging.C4.5三種算法,可用于網(wǎng)絡入侵取證、維護網(wǎng)絡安全、提升網(wǎng)絡服務質(zhì)量。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
