1日志分析
Apriori算法是日志分析中常用的关联规则算法,是一种重要的挖掘关联规则频繁集的算法,通过候选项集寻找频繁项集,利用层次顺序搜索的迭代方法实现对频繁项集的挖掘。具体步骤如下:先扫描数据集生成候选数据项集,计算各候选项的次数,基于最小支持度生成频繁1项集;基于频繁1项集和数据集中的数据,生成频繁2项集;同样的方法继续生成知道频繁n项集;最终从大数据项集中推出满足最小支持度和最小置信度的规则。这种方法由于在使用频繁i-1项集自连接时候选频繁i项集很大,而且需要对数据库进行全面扫描来安正候选频繁i项集,这个过程相当花费时间。对于这一问题,本文采用改进的Apriori算法,改进后的算法对事件主次属性有了约束,约束生成的关联规则需含有主属性,主属性与系统安全密切相关。在分析日志数据时可以忽略不重要的非主属性,这样就可以较为明显的降低算法的时间复杂度,提高算法效率。另外,本文还对置信度与支持度阈值的设置进行了改进,借鉴参考文献[5]中提出多层次概念上挖掘规则的算法,对相同层次上不同的频繁度属性进行多级挖掘。
2界面展示
界面设计包括三个部分,数据保护、用户操作和系统管理。数据保护针对的是电子证据的保护,使用ECMLR签密方案对数据和日志数据分析的结果进行保护[6]。用户操作部分有以下功能:查询日志、分析日志、查询分析结果和分析结果存储功能,用户可以任意设置查询条件,可以根据实际情况选择不同的日志分析方法,分析完毕后按照用户对结果呈现的要求将结果清晰的展示给用户,并将结果保存到数据库中。系统管理主要包括对用户的管理,增加、删除用户、更改用户权限等,另外当系统发现操作异常及其他一些异常后能够主动以邮件或者报警的方式通知系统管理员,以便管理员及时进行处理。
3实验结果及分析
实验选取了两个UCI数据集:wine数据集和Pen-BasedrecognitionofHandwittenDigiesDataset(Pendigits)进行测试,wine数据集共有三个分类:class1、class2和class3,共178条数据,每个类中含有597148条数据,每条数据有13个属性。Pendigits数据集含有10992条数据,训练数据和测试数据分别有7494条,3498条,每条数据有16个属性。表3和表4分别展示了wine数据集和Pendigits数据集上使用k-means、FCM、SOM聚类算法与改进后的Apriori算法执行结果的平均准确度比较,实验证明,文中提出的方法具有良好的准确度和较小的耗时。
4结束语
网络安全问题正逐步成为信息化普及后的重要研究问题,为保障计算机及网络的安全,如何对网络安全日志进行分析尤为重要。通过数据挖掘的方法对网络安全日志进行分析已经被证实是一个比较可靠的方法,但是数据挖掘的方法多样性,面临着很大的挑战性,应用数据挖掘技术来分析日志数据解决网络安全问题仍有很长的路要走。
作者:邓宾 单位:东营职业学院