摘要:股票市场瞬息万变,每天产生大量的交易数据。随着艺术品股票市场的兴起,越来越多的人投资于艺术品股票。由于艺术品股票价格受多方面的影响,需要寻求更为有效的方法来对艺术品交易市场进行预测。利用Apriori算法的改进算法对艺术品股票进行关联规则挖掘,得到艺术品股票之间的关联关系,进而对投资者做出正确决策有一定的辅助作用,防止投资者盲目投资,降低艺术品股票市场交易风险。
关键词:数据挖掘;关联规则;艺术品股票
引言
近年来,随着中国藏品热和我国政府关于艺术品交易政策的改变,中国已经取代美国成为世界第一大艺术品交易市场。2010年7月,深圳文化产权交易所推出了“深圳文化产权交易所1号艺术品资产包”,这是国内外首次出现的“权益拆分”投资模式,即艺术品股票。自此艺术品股票作为一种新型的金融产品越来越受到人们的关注[1]。由于艺术品股票价格受多方面的影响,尤其是艺术品交易市场相对于股票市场来说庄家的影响更大,所以需要寻求更为有效的方法来对艺术品交易市场进行预测。在艺术品股票市场,每天都会产生海量的交易数据,这些数据虽然存储在数据仓库中,但是并没有得到有效的利用。通过数据挖掘技术分析股票市场数据,投资者可以从中得出有效的投资信息,并综合分析利弊以后做出投资决策,提高投资收益率。一般来说,数据挖掘是指从数据库或数据仓库中发现隐藏的、预先未知的、有趣的信息的过程[2]。在国内,台湾义守大学陈庆翰开发了MIAT仿生物智慧股票预测系统,该系统是一个可以建立自我学习、自我组织、自我调节、自我改善的高度自主性智慧型系统[3]。国内还有许多著名的学者在股票预测方面做过大量的工作。国际方面,Mor-gan、Stannlog等人已经开发了AI(AutomatedInvestor)系统,该系统通过采用聚类、可视化和预测技术来寻求最佳投资时机[4]。本文致力于通过关联规则算法获得艺术品股票之间的关联关系,如“在某个时间段X范围内,艺术品股票A和B价格上涨时,有80%的情况下,股票C的价格也会随之上涨”。这样,就可以对投资者有一定的借鉴意义,防止被套牢。
1关联规则介绍
1.1算法思想假设有多个购物篮,每个购物篮是由多个项组成的集合(即为项集itemset),那么一个在多个购物篮中出现的项集称为“频繁”项集。定义1支持度:如果I是一个项集,I的支持度(sup-port)指包含I的购物篮的数目,此时定义一个支持度阈值(supportthreshold)s,如果I的支持度不小于s,则I为频繁项集。定义2置信度:I→j的置信度即为集合I∪{j}的支持度与I的支持度的比值。顾名思义,置信度即为得到的规则的可信任程度。AGRAWALR和SRIKANTR于1994年提出了Apriori算法,该算法是关联规则挖掘的最有影响的迭代算法[5]。设Cm为大小为m的候选项集集合,Ln为大小为n的真正频繁项集集合。Apriori算法是将候选项集不断过滤,得到频繁项集,再将频繁项集进一步过滤,得到新的频繁项集,如:首先找到“1项集”的集合,再将其支持度与支持度阈值相比较,过滤得到频繁“1项集”,记作L1,再将其进行组合,得到“2项集”,再将其支持度与支持度阈值相比较,过滤得到频繁“2项集”,记作L2,以此类推,直到找到最终的频繁项集。具体步骤如图1。1.2算法实例表1为某商场9天内的商品交易情况,设定支持度为2置信度为80%。利用Apriori算法寻找所有满足条件的关联规则的过程如图2所示。接下来四项集只有{I1,I2I3,I4},且其支持度为1,小于支持度阈值,故{I1,I2,I3,I4}不是频繁项集。由以上步骤可得:最大的频繁项集为{I1,I2,I3}{I1,I2,I4}。关联规则产生步骤如下:(1)对于每个频繁项集l,产生其所有非空真子集;(2)对于每个非空真子集s,如果其置信度不小于最小置信度阈值,则为强关联规则。经计算,强关联规则为I4→I2和I1&&I4→I2,置信度均为100%。
2改进的关联规则挖掘算法
在关联规则挖掘算法中,经典的Apriori挖掘算法是通过项目集数目不断增长来得到所有的频繁项目集的,即先产生频繁“1项集”,再产生频繁“2项集”,直到频繁项目集中的元素不能扩增为止。传统的Apriori算法有两个瓶颈:(1)需要多次扫描数据库,对于候选项集Ck,需要扫描k次数据库来确定其是否为频繁项集,是否可加入Lk;(2)由于频繁“k-1项集”产生候选“k-1项集”是将频繁项集中的元素进行组合得到,呈指数增长,这将产生大量的频繁项集,从而产生大量的关联规则[6]。这两个瓶颈明显降低了算法的效率。因此,在传统关联规则算法的基础上,本文提出Apriori算法的改进算法,即Partition算法。由于Apriori算法需要对数据库进行多次扫描,这个过程非常繁琐,可以将数据库逻辑性地分成几个互不相交的块,即分而治之。Partition算法步骤如下:(1)每次都只针对单独一个分块,其中分块的大小要保证可以放入主存,每个阶段秩序被扫描一次,而算法的正确性是由每一个可能的频集至少在该分块中是频集保证的。利用Apriori算法产生它的频繁项集。(2)把所有分区产生的频繁项集合并,生成候选项集,扫描整个数据库,计算这些项集的支持度,最终得到全局的支持度不小于支持度阈值的频繁项集。该算法流程如图3。Partition算法共扫描数据库两次。第一次扫描是对数据库进行分块,找出各块的频繁项集,即局部频繁项集;第二次扫描数据库是求候选集的支持度,用以计算全局频繁项集。相对于传统Apriori算法,Partition算法全程只扫描两次数据库,大大减少了I/O操作。由于Partition算法是并行计算,同时对各个分区进行求频繁项集的操作,大大提高了算法的效率。Partition算法是高度并行的,即把各个分块的处理分配给不同的处理器来产生频繁项集,在每一个循环结束之后,各个处理器之间会进行通信,以产生全局候选项集。
3关联规则在股票方面的应用
在文化艺术品交易市场,每天都会产生大量的交易数据,利用数据挖据技术对股票市场的股票价格以及股票的走势进行预测,通过运用关联规则技术对艺术品股票市场进行分析,为投资人提供较为准确的预测结果,防止投资者盲目投资[7]。本文选择了某艺术品股票交易市场2016年1月~5月几个月的交易数据,以此为依据进行股票关联规则挖掘。选取其中6只股票并分别记为A、B、C、D、E、F。然后对股票进行预处理,如果某天A股票上涨,则记为A0,若下跌则记为A1,其他股票同理。部分股票数据如表2所示。运用Apriori算法的改进算法———Partition算法进行关联规则挖掘,在实验中,设定支持度为60,置信度为70%,得到如表3所示挖掘结果。
4结束语
本文将关联规则的Apriori算法的改进算法应用到艺术品股票交易市场的预测上,得出如“当A和D艺术品股票价格均上涨时,C艺术品股票价格上涨的概率为85%”这样的关联规则,投资机构和普通股民可以根据挖掘出的关联规则快速得到各个艺术品股票之间的关联关系,进而决定买入或者卖出哪只股票,以使自己的投资收益最大化。对艺术品股票进行关联规则挖掘可为投资者提供较为准确和有效的投资信息,对艺术品股票投资有一定的指导意义,可促进中国文化艺术品交易市场更好的发展。
作者:赵艳琪 苟刚 单位:贵州大学 计算机科学与技术学院