1计算机海量数据SLIQ算法对云计算技术的应用
云计算下SLIQ算法中,根据MDL剪枝原理,对计算机海量数据数据进行编码,对于生成的初始树,发现最好的描述训练集S的子树T。同时,SLIQ算法还具备一些不足,首先是,云计算技术的SLIQ算法中,在云计算计算机中把类别列表存在内存中,对数据集大小具有一定限制作用。其次是云计算技术的SLIQ算法中,采用的是预排序技术,由于实际排序算法复杂度,不是和记录个数成线性关系的,因此实际中,也不能通过记录数目增长,而使数据结构发生线性可伸缩性。要实现数据库内数据的转换,首先确定数据分析中所具备的的参数,定义统计数据以及删除统计数据,确定统计时间段以及参与SLIQ计算的字段。基于SLIQ算法中,针对实际计算机海量数据处理中改进SLIQ算法,避免SLIQ算法大量计算云计算决策树中每个节点的指数,从而可以获得每个节点的分裂属性,减少计算复杂性,提升分类效果,类图如下:Maketree(data)//建立其云计算技术的决策树{创建数据的属性表12malists,alistsΛ,alists且在每个属性表中ialists包含属性iA作为计算机海量数据的记录可以建立其直方图fori=1tonval=(alists[i][m]alists[i][0])/numcount=0whilecount<num7.split=alists[i][0]+count*val然后遍历计算机海量数据的属性iA,并计算Gini指数值,重复操作并确定出最佳分裂点//计算数据的Gini指数gini=calc(l[c],r[c])ifginival>giniginival=ginisplitval=splitattr=Icount++ifgini=0return//当Asplivalattr当Asplivalattr<,maketree(data1)maketree(data2)}云计算技术的SLIQ算法中,计算最佳分割的算法代码如下所示:EvaluateSplits()foreachattributeAdotraverseattributelistofAforeachvaluevintheattributelistdofindthecorrespondingentryintheclasslist,andhencethecorrespondingclassandtheleafnode(sayl)updatetheclasshistogramintheleaflifAisanumericattributethencomputesplittingindexfortest(A<=v)forleaflifAisacategoricalattributethenforeachleafofthetreedofindsubsetofAwithbestsplit建树阶段中,应该提高“确定最佳分裂(BestSplit)”的可伸缩性,计算开销不大,确定数值型字段,寻找最佳的子集,遍历所有子集,时间复杂度为指数级。其次,选择导致最低错误率的子树;使用独立的数据集,快速得到简洁而且准确的决策树。最后得出决策树,经过程序对决策树进行普及之后,得出计算机海量数据处理结果。
2结论
综上所述,针对计算机海量数据,应用基于云计算技术的SLIQ算法,可以有效有效解决计算机海量数据计算问题,处理海计算机量数据,不仅可以解决计算机海量数据存储中节点失效的问题,大大提高计算海量数据的效率湖南职称,具有实际应用价值。
作者:崔学敏 张传勇