期刊专题 | 加入收藏 | 设为首页 12年实力经营,12年信誉保证!论文发表行业第一!就在400期刊网!

全国免费客服电话:
当前位置:首页 > 免费论文 > 社科历史 > 自然科学 >

基于细粒度伪划分的多核私有Cache容量共享机制(4)


 3.1 实验平台与参数设置 
  为评估CSFP机制对瓦片式多核处理器私有Cache结构的访存性能改善情况,本文采用周期精确的体系结构级全系统模拟器Simics-3.0.31[12]作为实验平台,实现面向瓦片式多核处理器私有Cache结构和CSFP机制.目标机器参数设置见表1. 
  本文采用多线程测试程序包PARSEC[13]中的13组测试程序作为工作负载对CSFP的性能进行评估,输入集规模为Medium.采用Magic Break指令[12]跳过应用程序初始化阶段后,对Cache进行一定指令数目的Warm-Up(约500 M条指令,视不同应用程序访存密集程度有所差异)才开始收集性能统计信息,每个应用程序约统计2 Billion条指令.对于不足2 Billion条指令的应用程序,则当多线程应用程序从并行阶段ROI跳出时即停止收集统计数据. 和FSB机制[11]类似,CSFP在进行Set分类和压力更新时采用20 M条指令周期间隔.此外,压力阈值调整参数a默认设置为0.3. 
  3.2 性能对比与分析 
  本文从L2 Cache失效率和平均存储访问延迟等方面对CSFP机制的性能情况进行了评估,并且与多核私有Cache结构和DSR机制进行了对比与分析. 
  3.2.1 L2 Cache失效率对比 
  图5说明了DSR, CSFP机制与原始私有Cache (Private)的L2失效率对比情况,其中Private结构的失效率结果规格化为1.实验发现,与私有Cache结构相比,CSFP可以将L2 Cache失效率平均降低13.56%,DSR机制则可以得到8.65%的平均L2 Cache失效率压缩.除raytrace和swaption应用程序外,其余11组应用程序的失效率均得到不同程度的压缩.对于ferret和streamcluster而言,CSFP可以将其L2失效率最高分别降低30.72%和31.02%.另一方面,由于blackscholes, bodytrack, raytrace和swaptions应用程序的工作集规模相对较小,它们对Cache资源的竞争并不强烈,因而表现出较低的Cache失效率,原始私有Cache结构已经能够较好地满足这些程序的容量需求,绝大部分存储访问可以在本地满足,所以引入容量共享机制后对这些程序失效率的压缩非常有限,对于raytrace和swaptions程序的L2失效率甚至分别出现了2.88%和3.76%的小幅负面影响. 
  3.2.2 平均存储访问延迟优化情况对比 
  平均存储访问时间(Average Memory Access Time,AMAT)能够直接反映处理器核从发出请求到返回数据所需的延迟,用其作为性能评价指标来衡量访存效率优化程度是可信的.图6以AMAT为指标,说明了DSR[1]和CSFP机制对Private结构的访存性能提升对比情况,图中以Private为标准对AMAT进行了归一化. 
  与原始Private结构相比,CSFP则可以将13组多线程测试程序的AMAT平均降低12.23%,DSR则可以获得7.21%左右的性能优化.对于canneal, facesim, ferret, freqmine和streamcluster等应用程序而言,性能改善程度较为明显,而对于raytrace, swaptions和blackscholes等容量需求不强烈的测试程序而言,片上失效中本地私有Cache Bank能够较好地满足负载工作集需求,溢出操作对其性能提升非常有限,因此未能表现出较好的性能. 
  CSFP机制对访存系统性能提升主要源于两个方面:首先,利用细粒度伪划分方法来调节同一聚合Set中各个同级Set间的私有与共享配额,能够感知应用程序在不同运行阶段的访存特性动态变化情况,提高了溢出操作的自适应性;其次,通过牺牲块替换、溢出和接收操作之间的协作,能够动态控制各个Set中本地块和溢出块所占据的容量空间比例,一方面,访存压力较大的Set能够占用较多的本地容量,仅提供较少的容量作为共享空间,另一方面,访存压力较小的Set则只占用较少的本地私有容量,可以腾出更多共享空间来接收远程溢出块. 
  3.2.3 硬件实现开销 
  CSFP机制所需的硬件开销主要包括以下几个部分:首先,为每个Cache块增加了1位Spilled位和1位Singlet位.其次,为每个Cache Set增加了一个8位的加权饱和计数器WSC和一个2位的压力状态表征标识域,还有一个4位的容量划分控制变量(Private-Quota,PQ).此外,CSFP为每个结点扩展了一个4位的溢出目标指针(Destination Pointer,DP).CSFP机制的硬件开销如表3所示.每个结点上所有组件引入的额外硬件实现开销不足3 kB,与单个结点上的512 kB L2 Cache数据阵列相比,硬件开销相对很小. 
  4 结 论 
  本文针对多核处理器私有Cache环境下的容量失效问题,提出了一种基于细粒度伪划分的核间容量共享机制CSFP,根据核间访存压力差异特性来指导数据替换与溢出策略,在多核私有Cache间实现动态容量共享. 
  通过在全系统体系结构级模拟平台Simics上运行PARSEC测试程序发现,CSFP在瓦片式多核处理器环境下能够明显改善多核私有Cache空间的容量有效利用率,从而有效降低多线程应用程序的平均存储访问延迟.此外,CSFP机制仅需增加较少的体系结构支撑来实现核间细粒度访存压力感知和数据块状态标识,硬件开销相对较小. 


更多自然科学论文详细信息: 基于细粒度伪划分的多核私有Cache容量共享机制(4)
http://www.400qikan.com/mflunwen/skls/zrkx/4040.html

相关专题:硕士论文网 常熟理工学院


上一篇:面向分组密码处理的可重构分簇式架构模型及其任务映射技术研究
下一篇:潘一矿副井马头门锚注联合修复加固技术

认准400期刊网 可信 保障 安全 快速 客户见证 退款保证


品牌介绍