期刊专题 | 加入收藏 | 设为首页 12年实力经营,12年信誉保证!论文发表行业第一!就在400期刊网!

全国免费客服电话:
当前位置:首页 > 免费论文 > 社科历史 > 自然科学 >

融合协同训练和两层主动学习策略的SVM分类方法

摘要 针对当前主动学习策略直接用于SVM分类器时存在的泛化能力不强的问题,结合协同训练思想,提出了两层主动学习策略(TLAC),并用于SVM深层挖掘未标记样本数据的分布知识.实验表明,该TLAC策略能够合理的指定TSVM算法中的正样本数,在典型指标测试中都表现出了一定的优越性.
  关键词 协同训练;主动学习;贝叶斯网络;支持向量机
  中图分类号 TP315 文献标识码 A 文章编号-1000-2537(2014)01-0090-05
  在传统的学习机技术中,学习器的学习主要针对带有标记的样本数据,而且通过模拟建立的模型主要用于对有标记的样本数据集进行数据的预测和推断,并在分类问题中标记出样本数据的类别.由于目前数据收集技术的快速发展和逐步提高,在收集数据时对未标记样本数据的收集十分容易,而在获取大量有标记的样本数据时比较困难,这是因为在获取有标记样本数据时需要耗费大量的人力、财力、物力等资源.而利用少量有标记样本数据训练出的学习器往往泛化能力并不强.那么如何在有标记样本数据较少的情况下,通过利用大量的不带标记样本数据来改善学习器的性能已经成为目前机器学习研究的热点之一.
  1研究现状
  文献[1]首次将主动学习策略用于支持向量机(Support Vector Machine,SVM)算法中,文中利用主动学习策略选取SVM分类器最有可能预测的样本,根据这些样本尽可能地简约SVM分类器超平面所在的版本空间,从而得到最有可能近似正确划分所有样本的超平面.实验分析也指出对直推支持向量机(Transducive Support Vector Machine, TSVM)采用文中所提的主动查询策略在某些情况下不如随机查询效果好.文献[2]利用主动学习策略并结合高斯随机场和谐波函数对学习器进行半监督形式的学习,该策略首先通过样本数据训练建立一个图,图中建立的每个节点都代表一个(有标记或未标记)样本数据,然后通过求解对应的函数最优值,进一步获取未标记样本数据的最优标记.该文在最后的实验分析中指出如果利用结构风险最小化准则去主动查询训练SVM,所得到的精度甚至不如直接在SVM上随机查询所得的训练精度.文献[3]提出的基于SVM的主动学习方法,采用版本空间和边缘方法选取样本的标记,其主要思想是反复选择离分类超平面最近的未标记样本标注直至达到设定阈值停止.文献[4]则对文中提出的方法进行改进,提出了一种基于不确定选样和确定选择相结合的主动学习方法,并应用于浅层语义分析的任务.
  基于上述文献分析,目前基于SVM的学习存在下面两个问题:(1)对于错误样本标记敏感,如果初始的SVM分类超平面位置不好,需要很长时间才能移动到合理的位置,甚至受错误标记影响较大时,分类超平面会一直停留在不合理的位置:(2)基于SVM的主动学习在查询的中后期,查询的点大部分位于SVM分类超平面附近,使得算法的泛化能力不强.
  2两层主动学习策略
  2.1直推支持向量机设计
  因为数据集中的标记样本是在数据集中随机选取的,如果初始分类超平面处在不合理的位置,利用TSVM训练得到的准确率也可能不太好.从图1可以看出,在处理1类和3类时,我们的算法准确率更高,这是因为TSVM在初始估计的正样本数和真实值之间相差较大.但是1类和3类的召回率有所下降,这是因为这两类维数较高,由于高维特征空间映射时可能导致样本相对位置改变,从而影响分类器的决策.4类的样本分布不均匀导致了精度有所下降.
  4结束语
  针对当前TSVM算法存在的问题和主动学习策略用于SVM分类器的缺陷,本文提出了一种基于贝叶斯的主动学习选取样本策略用于TSVM算法中,在一定程度上解决了TSVM算法指定正样本的问题,同时也使主动学习策略能在全局分布上进行查询样本,进而使SVM分类器的超平面移动到合理的位置.由于贝叶斯分类器也有其固有的假设性缺陷,本文的后续工作是进一步改进主动学习策略,挖掘未标记数据的潜在分布知识,并用真实数据集加以测试.


    更多自然科学论文详细信息: 融合协同训练和两层主动学习策略的SVM分类方法
    http://www.400qikan.com/mflunwen/skls/zrkx/3921.html

    相关专题:城市化动力机制 家乐福存货管理案例


    上一篇:考虑索端刚臂的斜拉桥空间拉索非线性分析
    下一篇:桉叶素精制工艺初步研究

    认准400期刊网 可信 保障 安全 快速 客户见证 退款保证


    品牌介绍