Web安全与机器学习(KNN篇)-创新互联
sklearn之knn近邻算法
近邻算法检测异常操作
数据来源:http://www.schonlau.net/网页中的Masquerading User Data。其中包含50个用户的操作日志,每个日志包含1500条操作命令,前面5000条是正常的操作,后面的10000条日志中随即包含有异常操作。具体参考《Web安全机器学习入门》
成都创新互联公司长期为成百上千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为兴国企业提供专业的成都网站建设、网站建设,兴国网站改版等技术服务。拥有十余年丰富建站经验和众多成功案例,为您定制开发。基础知识
本来想自己写的,但是网上资料太多,就没必要写了。看下其他大佬写过的就行了:
- https://blog.csdn.net/zgcr654321/article/details/85219121
- https://www.jianshu.com/p/3dcb39de04aa
这两个看了,基本上就没啥问题了
编程实现
Step 1:随便选择一个user日志,里面每行代表一个命令。每150个命令弄成一个操作序列,保存在列表之中
def load_user(filename):
most_cmd = []
mini_cmd = []
cmd_list = []
cmd_seq = []
# 获取操作序列
with open(filename, 'r', encoding="utf-8") as f:
cmd = f.readline()
temp = []
cnt = 0
while(cmd):
cmd_list.append(cmd.strip('\n'))
temp.append(cmd.strip('\n'))
cnt = cnt + 1
if(cnt == 150): # 这里不按照书上的分,我这里按照150个命令为一个序列,刚好和标签对上号,因为标签只有100个值
cmd_seq.append(temp)
cnt = 0
temp = []
cmd = f.readline()
Step 2:然后将user日志中所有的命令进行统计,统计出它们最频繁的50个命令,以及最不频繁的50个命令
# 获取最频繁的前50个命令,获取最不频繁的前50个命令
fdist = sorted(FreqDist(cmd_list).items(),key = operator.itemgetter(1), reverse = True) # 按照出现频率排序
most_cmd = [ item[0] for item in fdist[:50]]
mini_cmd = [ item[0] for item in fdist[-50:]]
Step 3:特征化。在 Step 1 的操作序列上,我们按一个操作系列为单元,①统计其中不重复的命令个数、②最频繁的10个命令、③最不频繁的10个命令
user_feature = []
for cmd_list in user_cmd_list:
# 获取每个序列不重复命令的个数
seq_len = len(set(cmd_list))
# 将每个序列按照出现频率由高到低的排列命令
fdist = sorted(FreqDist(cmd_list).items(), key=operator.itemgetter(1), reverse=True)
seq_freq = [item[0] for item in fdist]
# 获取最频繁和最不频繁的前10个命令
f2 = seq_freq[:10]
f3 = seq_freq[-10:]
Step 4:因为KNN只能接收数值类型输入。在 Step 4 中,②和③都是字符串的命令,我们需要将其标量化。标量化的方式:统计最频繁使用的50个命令和最不频繁使用的50个命令计算重合程度
# 计算重合度
f2 = len(set(f2) & set(user_max_freq))
f3 = len(set(f3) & set(user_min_freq))
# 合并特征:①每个序列不重复的命令个数;②每个序列最频繁的前10个命令和user中最频繁的50个命令重合度;
# ③每个序列最不频繁的前10个命令和user中最不频繁的前50个命令重合度;
user_feature.append([seq_len, f2, f3])
python3完整代码如下
from nltk.probability import FreqDist # 统计命令出现频率
import operator
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
def load_user(filename):
most_cmd = []
mini_cmd = []
cmd_list = []
cmd_seq = []
# 获取操作序列
with open(filename, 'r', encoding="utf-8") as f:
cmd = f.readline()
temp = []
cnt = 0
while(cmd):
cmd_list.append(cmd.strip('\n'))
temp.append(cmd.strip('\n'))
cnt = cnt + 1
if(cnt == 150): # 这里不按照书上的分,我这里按照150个命令为一个序列,刚好和标签对上号,因为标签只有100个值
cmd_seq.append(temp)
cnt = 0
temp = []
cmd = f.readline()
# 获取最频繁的前50个命令,获取最不频繁的前50个命令
fdist = sorted(FreqDist(cmd_list).items(),key = operator.itemgetter(1), reverse = True) # 按照出现频率排序
most_cmd = [ item[0] for item in fdist[:50]]
mini_cmd = [ item[0] for item in fdist[-50:]]
return cmd_seq, most_cmd, mini_cmd
def get_user_feature(user_cmd_list, user_max_freq, user_min_freq):
user_feature = []
for cmd_list in user_cmd_list:
# 获取每个序列不重复命令的个数
seq_len = len(set(cmd_list))
# 将每个序列按照出现频率由高到低的排列命令
fdist = sorted(FreqDist(cmd_list).items(), key=operator.itemgetter(1), reverse=True)
seq_freq = [item[0] for item in fdist]
# 获取最频繁和最不频繁的前10个命令
f2 = seq_freq[:10]
f3 = seq_freq[-10:]
# 计算重合度
f2 = len(set(f2) & set(user_max_freq))
f3 = len(set(f3) & set(user_min_freq))
# 合并特征:①每个序列不重复的命令个数;②每个序列最频繁的前10个命令和user中最频繁的50个命令重合度;③每个序列最不频繁的前10个命令和user中最不频繁的前50个命令重合度;
user_feature.append([seq_len, f2, f3])
return user_feature
def get_labels(filename): # 获取第三列的标签
labels = []
cnt = 0
with open(filename, 'r', encoding="utf-8") as f:
temp = f.readline().strip('\n')
while(temp):
labels.append(int(temp[4]))
cnt += 1
temp = f.readline().strip('\n')
return labels
if __name__ == "__main__":
user_cmd_list, user_max_freq, user_min_freq = load_user('user.txt')
user_feature = get_user_feature(user_cmd_list, user_max_freq, user_min_freq)
labels = get_labels('labels.txt')
# 切割数据集:训练集和测试集
x_train = user_feature[0:70]
y_train = labels[0:70]
x_test = user_feature[70:]
y_test = labels[70:]
# 训练数据
neight = KNeighborsClassifier(n_neighbors=3)
neight.fit(x_train, y_train)
# 预测
y_predict = neight.predict(x_test)
# 计算得分
score = np.mean(y_test == y_predict) * 100
print(score) # 90.0
最终获得90%的正确率。
总结
①获取最频繁的前50个命令,书上的方式获取的并不是最频繁的前50个。在这里我改了下代码。②标签和数据对不上号,命令共有15000个,标签只有100个。书上的做法是每100个为一个操作序列,也就是有150个操作序列,然后在标签出再前面增加了50个标签。我的代码是将150个命令作为一个序列,这样下来刚好合适。
最后推荐下个人博客:https://unihac.github.io/
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
新闻名称:Web安全与机器学习(KNN篇)-创新互联
本文网址:http://scjbc.cn/article/dcdshs.html