1、2023-1-171Outlinel 低功耗的研究背景l 低功耗的基本理论l 降低集成电路功耗的途径l 低功耗设计技术l 低功耗评估技术l 功耗和能量效率l 技术发展l 总结2023-1-172低功耗研究的背景低功耗研究的背景l 随着工艺特征尺寸的缩小以及复杂度的提高,单位面积上的功耗密度急剧上升,已经达到封装、散热、以及底层设备所能支持的极限;l 散热问题、可靠性问题也要求IC的功耗越小越好;l 对现在流行的移动计算,系统的低功耗设计及其IC的低功耗设计,是其生存的关键;l 最后全球都在倡导绿色环保科技理念,保护环境,节约能源。为什么需要低功耗设计2023-1-173低功耗研究的背景低功耗研
2、究的背景Figure 1.Power density with shrinking geometry.Fred Pollack功率密度40048008808080858086286386486PentiumP611010010001000019701980199020002010Power Density(W/cm2)Hot PlateNuclearReactorRocketNozzleSunsSurfaceSource:Intel 2023-1-174低功耗研究的背景低功耗研究的背景Figure 2.IC power trends:actual vs.specified.Courtesy S
3、i2 LPC.SOC power trends2023-1-175低功耗研究的背景低功耗研究的背景 随着设计复杂性的加深和IC性能的提高,单片集成封装的功耗呈逐年上升趋势,在高性能处理器中功耗问题尤其突出。尽管采用了各种制冷措施来维持系统的正常运行,但功耗转化的焦耳热将对电路性能产生很大影响。功耗的上升意味着电迁移率的增加,当芯片温度上升到一定程度时,电路将无法正常工作。这将直接影响到复杂系统的性能并进而损害整个系统的可靠性,尤其对那些生命周期长和可靠性要求高的电子产品,功耗的挑战已经十分严重。可靠性2023-1-176低功耗的基本理论低功耗的基本理论Dynamic PowerDissipat
4、ionStatic PowerDissipation功耗组成Total PowerDissipationPswitchingPshort-circuitPleak2023-1-177低功耗的基本理论低功耗的基本理论 Ptotal=Pswitching+Pshort-circuit+Pleakage=kCV2f+kVIsc+VIleak其中:f是系统的频率;k是跳变因子,即整个电路的平均反转比例;C是门电路的总电容;V是供电电压;是电平信号从开始变化到稳定的时间。总功耗2max()thresholdVVfVexp()()thresholdleakqVIkT2023-1-178动态功耗:当电路活动
5、时消耗的功耗。l 开关功耗:对负载充/放电低功耗的基本理论低功耗的基本理论 0-1:一半的能量被上拉网络所消耗,一半的能量存储在CL上;1-0:CL上存储的能量消耗掉。动态功耗2023-1-179低功耗的基本理论低功耗的基本理论开关功耗Psw=k CL Vdd2 fCLKReduce Switching Activity:Conditional clockConditional prechargeSwitching-off inactive blocksConditional executionRun it slower:Use parallelismLess pipeline stagesU
6、se double-edge flip-flopTechnology scaling:The highest winThresholds should scaleDynamic voltage scalingReduce the active load:Minimize the circuitsMore efficient layout2023-1-1710l 短路功耗:晶体管翻转时,电源与地之间会存在瞬时短路所引起的功耗。短路功耗的存在,是因为电路的输入波形是非理想的,上升时间和下降时间不为零,如图所示:低功耗的基本理论低功耗的基本理论短路功耗2023-1-1711低功耗的基本理论低功耗的基
7、本理论 静态功耗是由漏电流引起的。在纳米尺度的IC设计中,漏电流是一个关键问题。据统计,在90nm工艺下,IC漏电流功耗约占整个功耗的1/3,在65nm以后的工艺下,IC漏电流功耗已占总功耗的一半以上。静态功耗主要包括两部分:1.由亚阈值泄露电流引起的功耗;2.栅极泄露功耗。亚阈值漏电流可表示为:从公式可看出,亚阈区漏电流与阈值电压有密切关系。当阈值减小时,亚阈区漏电流会呈指数级快速增大。/0(1)thdsVSqVkTsubII ee为了减少栅极泄露,需要研究高介电常数的新材料。(HKMG)静态功耗2023-1-1712低功耗的基本理论低功耗的基本理论静态功耗2023-1-1713低功耗的基本
8、理论低功耗的基本理论静态功耗2023-1-1714低功耗的基本理论低功耗的基本理论影响功耗的因素主要有电压、漏电流、工作频率、有效电容等。可以通过降低工作电压、减少翻转负载以及降低电路翻转率等来降低动态功耗;通过减少工作电压以及减少漏电流来降低静态功耗。功耗影响因素CMOS电路的功耗由三部分组成:(1)泄露电流(2)短路电流(3)负载的充放电电流其中:(1)属静态功耗,(2)(3)属动态功耗。2023-1-1715降低集成电路功耗的途径降低集成电路功耗的途径途径(1)Ptotal=kCV2f+kVIshort+VIleak1、降低电源电压但降低电压不是无限制的,必须考虑降低电压对电路速度的影响
9、。2023-1-1716降低集成电路功耗的途径降低集成电路功耗的途径途径(1)针对工艺的临界电压Ve:Ve=1.1Ee*Leff 式中:Ee是引起载流子速度饱和的临界电场;Leff为晶体管沟道的有效长度。对于低功耗设计,Ve可以作为电源电压的上限,下限由噪声容限决定。2023-1-1717降低集成电路功耗的途径降低集成电路功耗的途径降低负载电容降低负载电容 n 器件栅电容和节点电容,它们和器件工艺有关;n 连线电容,随着工艺发展,连线电容已经超过器件电容。为了减小电容,改进电路结构,减少所需MOS管数目是减小负载电容、降低功耗的重要途径。SOI CMOS由于有隐埋SiO2隔离,寄生电容极小,使
10、SOI CMOS电路比体硅CMOS电路有更快的速度和更低的功耗。途径(2)2023-1-1718降低集成电路功耗的途径降低集成电路功耗的途径途径(2)2023-1-1719降低集成电路功耗的途径降低集成电路功耗的途径减少开关活动性减少开关活动性 开关活动性与数据频率和开关活动率有关,节点的开关活动由两部分:一是静态部分,只依赖于电路拓补关系及输入信号的统计分布;二是动态部分,是考虑电路的时序行为。p 对于静态逻辑,N输入逻辑门在一周期内输出从0到1转换的几率:途径(3)式中:P0输出为0状态的概率;P1输出为1状态的概率;N0真值表中输出为0状态的数目。p 对于 nMOS的动态逻辑电路,当求值
11、期间输出通过nMOS放电后,在下次预充电期间会出现0到1的转换概率为NNNNPPPPP2000010102)2()1(NNPP200102023-1-1720降低集成电路功耗的途径降低集成电路功耗的途径减小由泄漏电流引起的功耗减小由泄漏电流引起的功耗 深亚微米工艺中存在多种泄漏电流,其中影响最大的是亚阈值电流IST。增加可开关的源级电阻可有效抑制亚阈值电流。途径(4)2023-1-1721低功耗设计技术低功耗设计技术l 时钟关断(Clock-Gating);l 多域值电压库(Multi-threshold libraries);l 多电压(Multi-Voltage);l 电源关断(Power
12、 Gating or Power Shutoff);l 带状态保持功能的电源关断(Power Gating with State Retention);l 动态电压频率缩放(Dynamic Voltage and Frequency Scaling);l 自适应电压频率缩放(Adaptive Voltage and Frequency Scaling);l 低电压待机(Low-Vdd Standby)等。常用技术2023-1-1722低功耗设计技术低功耗设计技术Figure 11.Power reduction techniques.2023-1-1723低功耗设计技术低功耗设计技术 SOC低
13、功耗的设计是一项需要从顶层到底层各个阶段进行优化设计的工作,通常采用的设计方法是按不同的设计层次采用相应的功耗优化技术,包括:l 工艺级低功耗技术;l 电路级低功耗技术;l 逻辑(门)级低功耗技术;l RTL级低功耗技术;l 体系结构级低功耗技术;l 算法级低功耗技术;l 系统级低功耗技术。设计层次2023-1-1724工艺级低功耗设计工艺级低功耗设计低功耗设计技术低功耗设计技术l 按比例缩小技术按比例缩小技术p 一方面,按比例缩小原来的集成度,降低器件电容,从而降低功耗。p 另一方面,系统集成使得芯片间的通行量降低,这也使功耗减少。l 封装技术封装技术 多芯片封装多芯片封装 芯片级的I/O功
14、耗大约占整个功耗的1/41/2,因此,在多芯片系统中优先考虑的是减少I/O功耗。片间接口电容的大小为pF数量级,而多芯片封装电容仅仅为fF数量级。l 器件互联优化器件互联优化 版图设计中最简单的低功耗方法是对具有较高活动性的信号选择上层金属布线。上层金属与基板被一层较厚的二氧化硅隔开,由于布线的物理电容随着氧化层的厚度的增加而减小。合理的布局和布线对低功耗是很重要的。在低功耗布局和布线中,往往以活动性与电容的乘积为目标,活动性高的布线应尽可能短,基于布局布线的低功耗可以降低18%左右的功耗。2023-1-1725工艺级低功耗设计工艺级低功耗设计l 变阈值工艺(变阈值工艺(VTCMOS):采用动
15、态改变衬底偏置电压以改变阈值。l 多阈值工艺(多阈值工艺(MTCMOS):在关键路径上采用阈值较低的器件,而在非关键路径上用高阈值器件。虽然会因此增大延迟,但由此换得漏电功耗的降低;低功耗设计技术低功耗设计技术2023-1-1726 电路级低功耗设计可以细化到每个晶体管尺寸的定制,每个器件的参数设定等操作。在电路级设计阶段,还可通过更改电路结构来降低功耗。l SoC中总线的数据线和地址线一般都比较多,比较长,每条线都需要驱动负载,通常占总功耗的1520%,有的甚至70%以上。n 降低信号摆幅n 电荷再循环总线结构:把整个电势差分成几等分,利用总线各数据位电容上存储的电荷电势的变化来传输数据。l
16、 在存储器设计中,为减少缓存漏电,可以采用数据保持门控接地、动态阈值SRAM等。低功耗设计技术低功耗设计技术电路级低功耗设计电路级低功耗设计2023-1-1727逻辑级功耗优化技术逻辑级功耗优化技术l 由于大的RAM比小的RAM耗电多,可以将整块的RAM分成小块可以降低存取功耗;另外,在不存取时,保持RAM片选无效,地址、数据为恒定值。l 采用时钟门控技术:时钟是惟一在所有时间都充放电的信号,而且很多情况下引起不必要的门的翻转,因此降低时钟的开关活动性将对降低整个系统的功耗产生很大的影响。门控时钟包括门控逻辑模块时钟和门控寄存器时钟。门控逻辑模块时钟对时钟网络进行划分,如果在当前的时钟周期内,
17、系统没有用到某些逻辑模块,则暂时切断这些模块的时钟信号,从而明显地降低开关功耗。然而,门控时钟易引起毛刺,必须对信号的时序加以严格限制,并对其进行仔细的时序验证。低功耗设计技术低功耗设计技术2023-1-1728用综合工具进行功耗优化时,通常采用的技术包括:l 插缓冲器,以降低信号的转换时间,最终降低功耗;l 相位分配;l 引脚互换;低功耗设计技术低功耗设计技术逻辑级功耗优化技术逻辑级功耗优化技术2023-1-1729l 逻辑重组,通过逻辑表达式的转换,使得高翻转率的节点影响的逻辑最小。设信号a的活动率较高,逻辑函数f=ab+ac+cd有两种等价形式f=ab+c(a+d)和f=a(b+c)+c
18、d,其传输情况分别如图(a)、(b)所示。低功耗设计技术低功耗设计技术逻辑级功耗优化技术逻辑级功耗优化技术2023-1-1730l Resizing,通过去除缓冲器,减少门的数量,以实现最低的功耗。低功耗设计技术低功耗设计技术逻辑级功耗优化技术逻辑级功耗优化技术l此外,还可以通过工艺映射,将高翻转率的节点放入到单元内部,从而降低功耗。如图所示:2023-1-1731RTL级低功耗技术级低功耗技术-时钟门控1、时钟门控将控制信号直接与时钟信号进行与操作基于锁存器的时钟门控方案低功耗设计技术低功耗设计技术该方法的原理是:latch在CLK为低时透明。这样,EN1信号上的毛刺仅出现在CLK的低电平处
19、,EN1与CLK进行与操作,可以将这部分毛刺消除掉。这样,GCLK上就没有毛刺了。2023-1-1732RTL级低功耗技术级低功耗技术-操作数隔离2、操作数隔离 原理是:如果在某一段时间内,数据通路的输出是无用的,则将它的输入置成固定值,这样数据通路部分没有翻转,功耗就会降低。低功耗设计技术低功耗设计技术2023-1-1733RTL级低功耗技术级低功耗技术-操作数隔离操作数隔离技术主要有两种结构,一是MUX结构,二是Latch结构。低功耗设计技术低功耗设计技术2023-1-1734RTL级低功耗技术级低功耗技术-状态编码优化l 状态编码优化方法针对状态寄存器工作,目的在于通过减小两个相邻状态之
20、间的加权平均距离来减小开关活动性(状态转换时不变的比特位数)。l 基本的编码有二进制码、独热(one hot)码、格雷(Gray)码、二进制补码和总线反转码。l 选取编码的原则是:对于频繁切换的相邻状态,尽量采用相邻编码。例如,Gray码在任何两个连续的编码之间只有一位的数值不同,在设计计数器时使用Gray码取代二进制码,可显著降低功耗。低功耗设计技术低功耗设计技术2023-1-1735体系结构级低功耗技术体系结构级低功耗技术l 并行技术并行技术(parallel):牺牲面积来降低功耗。将一个功能模块复制为n(n=2)个相同的模块,这些模块并行计算后通过数据选择器选择输出。后者只需用1/n的频
21、率即可实现同样性能,同时电压也可以降低,总体功耗明显下降。1.4 降低功耗的技术措施2023-1-1736n预计算技术:预计算技术:其原理是利用预计算的结果减少电路内部的跳变行为。n 流水线技术流水线技术(PIPELINE):原理:在电路的组合逻辑中插入寄存器,缩短路径的长度,达到提高电路速度的目的。最早是用来增加处理器的主频,但对降低功耗也有很大好处。流水线把运算分成完成时间近似相等的n个步骤,第(i-1)级的运算结果作为第i级运算的输入,这样可以提高整个系统的吞吐量,从而可以降低电压以降低功耗。1.4 降低功耗的技术措施需要在增加的面积与节省的功耗之间进行权衡。需要在增加的面积与节省的功耗
22、之间进行权衡。体系结构级低功耗技术体系结构级低功耗技术2023-1-1737算法级低功耗技术算法级低功耗技术 SoC片内总线同板上总线的电容相比降低几个数量级,但在整个设计中仍占很大比重,所以为降低整体功耗就要降低其跳变几率。n 数据总线数据总线:Hamming距离是指相邻两个二进制数据之间对应位不相同的个数。如果Hamming距离超过一半,可采用反码传送。这种总线翻转译码技术可以极大降低跳变几率,特别适用于数据总线,这是因为数据总线上的数据通常没有相关性。总线翻转译码的代价是多一根传输线,用于标志数据是否翻转;同时,要考虑Hamming距离的判定电路以及接受端对所接收的数据进行翻转的电路所增
23、加的面积。n 地址总线地址总线:通常地址总线传输的数据有很强的连续性。在跳变连续的情况下,采用Gray编码技术可以降低约50%的跳变,不过需要Gray编码和二进制编码的相互转化,因而增加电路面积。总线编码技术低功耗设计技术低功耗设计技术2023-1-1738 电源缩放是降低功耗最直接的技术。在系统设计时,要尽量采用低电压。低电压可显著降低功耗,但降低供电电压会面临一些问题,因为如果阈值电压不变,噪声容限(noise margin)将会减小,抗干扰能力减弱,信号传送准确性就会降低。为保持相当的噪声容限,阈值电压要随供电电压的减少而相应的减少。然而,当进入0.13微米工艺后,阈值电压的减少会导致静
24、态功耗呈指数级增长。系统级低功耗技术系统级低功耗技术-电源缩放低功耗设计技术低功耗设计技术1、电源缩放2023-1-1739Voltage Scaling Approaches Static Voltage Scaling(SVS):different blocks or subsystems are given different,fixed supply voltages.Multi-level Voltage Scaling(MVS):an extension of the static voltage scaling case where a block or subsystem is
25、 switched between two or more voltage levels.Only a few,fixed,discrete levels are supported for different operating modes.Dynamic Voltage and Frequency Scaling(DVFS):an extension of MVS where a larger number of voltage levels are dynamically switched between to follow changing workloads.Adaptive Vol
26、tage Scaling(AVS):an extension of DVFS where a control loop is used to adjust the voltage.低功耗设计技术低功耗设计技术系统级低功耗技术系统级低功耗技术-电源缩放2023-1-1740电源缩放技术中涉及到一些特殊的器件单元,主要包括:l Level Shifter:用于在不同的电压域间传递信号。l Isolation Cell:实现对不定态的隔离。l Retention Register:在不工作模式下,将寄存器的状态保存起来。低功耗设计技术低功耗设计技术系统级低功耗技术系统级低功耗技术-电源缩放2023-
27、1-1741 Level Shifter:根据信号电平由高到低和由低到高的转换,可以分为两类。High to Low Level ShifterLow to High Level Shifter低功耗设计技术低功耗设计技术系统级低功耗技术系统级低功耗技术-电源缩放2023-1-1742 Isolation Cell:根据钳位值不同分为与型和或型结构,其结构如图所示。低功耗设计技术低功耗设计技术系统级低功耗技术系统级低功耗技术-电源缩放Basic Isolation Cell2023-1-1743Retention Register低功耗设计技术低功耗设计技术系统级低功耗技术系统级低功耗技术-电
28、源缩放2023-1-1744系统级低功耗技术系统级低功耗技术-门控电源低功耗设计技术低功耗设计技术2、门控电源 芯片中某些模块在不工作时,可以关断其电源,在需要工作时,再将其电源导通,它可以使电源关断区域的漏电流降至接近零,极大的减小芯片的静态功耗。现在电源关断的技术主要有:p 片外关断:在芯片外部通过切断电源来关断芯片内部的某些模块。p 片内关断:又分为精细关断和粗糙关断,精细关断需要特别库的支持,可以实现每个标准单元的精细关断;而粗糙关断只需要一些门控单元就可以实现对某些模块的电源或地的控制,如图所示,用pmos来控制电源,用nmos来控制地。2023-1-1745系统级低功耗技术系统级低
29、功耗技术-门控电源低功耗设计技术低功耗设计技术门控电源原理图2023-1-1746系统级低功耗技术系统级低功耗技术-门控电源有门控电源无门控电源低功耗设计技术低功耗设计技术2023-1-1747带有电源门控的SOC系统的模块框图:系统级低功耗技术系统级低功耗技术-门控电源低功耗设计技术低功耗设计技术2023-1-1748The Challenges of Power Gating Design of the power switching fabric Design of the power gating controller Selection and use of retention re
30、gisters and isolation cells Minimizing the impact of power gating on timing and area The functional control of clocks and resets Interface isolation Developing the correct constraints for implementation and analysis Performing state-dependent verification for each supported power state Performing po
31、wer state transition verification to ensure all legal state entry and exit arcs are simulated and verified Developing a strategy for manufacturing and production test系统级低功耗技术系统级低功耗技术-门控电源低功耗设计技术低功耗设计技术2023-1-1749Power Gating on the AMD Mobile GPU Design系统级低功耗技术系统级低功耗技术-门控电源低功耗设计技术低功耗设计技术2023-1-1750l
32、 根据应用的要求,可以将系统设置为不同的工作模式。在不同的工作模式下,可选用不同频率的时钟,并且可以将一些不需要的模块的时钟关掉。例如,可将一个系统的时钟分为四种模式:Normal、Slow、Idle、Sleep。不同模式下,时钟的分配不同。l 时钟分配方案可以通过软件进行控制,也可以由内部状态机来控制。l 该方案的实现要比多电压方案要容易许多,因此在设计中应用较为普遍。系统级低功耗技术系统级低功耗技术-系统级时钟分配低功耗设计技术低功耗设计技术3、系统级时钟分配2023-1-1751 由于异步电路的工作模式是“事件驱动”,电路只在需要时工作,因此消除了速度浪费,由于不需同步,没有全局时钟,因
33、此也消除了全局时钟树功耗。系统级低功耗技术系统级低功耗技术-异步电路低功耗设计技术低功耗设计技术4、异步电路2023-1-1752系统级低功耗技术系统级低功耗技术-动态功耗管理1.4 降低功耗的技术措施5、动态功耗管理 动态功耗管理技术(Dynamic Power Management,DPM)是一种低功耗设计方法学,它通过配置系统参数,使用最少的激活部件来满足应用的需求。功耗管理器是核心,包括监测器和控制器,监测器负责检测系统的负载信息和工作状态,反馈给控制器,由其根据功耗管理策略控制系统的工作状态由于系统状态转换本身也有时间和功耗开销,因此需要功耗管理算法进行有效决策。现有的功耗管理算法分
34、两类:p 启发式算法 此类算法根据工作负载的历史信息,预测未来空闲周期。如果时间足够长,带来的功耗降低足以抵消功耗转换开销,则进入休眠状态p 统计类算法 此类算法以排队论为基础,用各种复杂的概率模型来描述系统请求的时间间隔、服务时间等。决策执行的方式,可以分为基于离散时间和事件驱动2023-1-1753UPF的设计实现流程的设计实现流程低功耗设计技术低功耗设计技术有了这样一个统一的UPF文件,逻辑综合、物理实现、仿真验证、等效性检查以及最后的signoff流程就可以按照UPF中对低功耗设计意图的描述来完成整个IC设计实现验证流程。贯穿于整个流程的低功耗意图来源于同一个文件,这种一致性可以大大降
35、低低功耗设计的风险性。2023-1-1754Synopsys基于基于UPF的低功耗设计流程的低功耗设计流程低功耗设计技术低功耗设计技术2023-1-1755低功耗评估技术低功耗评估技术 只有掌握准确估计功耗的手段,才能确保芯片功耗符合设计的要求。低功耗设计需要EDA流程中各个层次的协同设计,功耗的评估也需要在各个层次的设计过程中进行。通常,设计越靠近顶层抽象层次越高,对功耗的影响越大,但对功耗的估计越不精确;相反,越靠近底层对功耗的估计越准确而功耗的设计空间越小。2023-1-1756低功耗评估技术低功耗评估技术功耗估计的两种常用方法精度高、速度慢精度低、速度快2023-1-1757低功耗评估
36、技术低功耗评估技术在片上多核处理器的设计中,由于处理器各个层次的设计都受到功耗因素的制约,不同构件间又存在相互影响,能在设计早期就对功耗进行完整和准确的测量,并对不同的设计方案做出评价,具有非常重要的意义。在针对单核处理器方面,应用较为广泛的结构级功耗模拟器包括Wattch、SimplePower和PowerTimer等,这些模拟器的基本做法是按照功能把处理器分成不同的模块,再使用结构级建模方法对每个模块赋予相应的功耗代价,并采用性能模拟器驱动方式,在该模块被访问时,计算出相应的功耗。Orion是针对片上网络功耗估计的高层模拟器,可以对片上互连部件如路由器(Router)等进行功耗建模的。20
37、23-1-1758低功耗评估技术低功耗评估技术功耗估计流程2023-1-1759低功耗评估技术低功耗评估技术文献21提出一种基于物理反馈的结构级功耗评估方法和平台。2023-1-1760功耗和能量效率功耗和能量效率文献6:An Integrated GPU Power and Performance ModelPropose an integrated power and performance(IPP)prediction model for a GPU architecture to predict the optimal number of active processors for a
38、 given application.The basic intuition is that when an application reaches the peak memory bandwidth,using more cores does not result in performance improvement.2023-1-1761功耗和能量效率功耗和能量效率Many-core processor文献16-19,利用Amdahl law对多核处理器中的功耗效率和能量效率问题进行了研究。2023-1-1762功耗和能量效率功耗和能量效率Many-core processor2023-1
39、-1763功耗和能量效率功耗和能量效率Many-core processor2023-1-1764功耗和能量效率功耗和能量效率Many-core processor2023-1-1765功耗和能量效率功耗和能量效率Many-core processor2023-1-1766功耗和能量效率功耗和能量效率Many-core processor2023-1-1767功耗和能量效率功耗和能量效率To achieve the best possible energy efficiency,P+c*.Analytical models also show that by knowing the amoun
40、t of parallelism available in an application prior to execution,we can find the optimal number of active cores for maximizing performance for a given cooling capacity and energy in a system.To further optimally control the number of active cores adaptively,future many-core runtime must be capable of
41、 dynamic per-core power profiling and have a feedback mechanism to manage thread dispatch.Many-core processor2023-1-1768技术发展技术发展 GTX680将性能功耗比性能功耗比的地位突出到了一个前所未有的高度。在提供强劲性能的同时尽一切可能控制芯片的功耗和发热,成了NVIDIA在Kepler构架中最首要的任务。在GTX680芯片中,NVIDIA启用了TSMC全新的28nm HKMG(高介电金属栅极)工艺进行生产,工艺进步所带来了更小的节点尺寸以及与之对应的更低的亚阈/阈值电压,不
42、仅更好的控制了芯片的整体发热和功耗,更可让芯片面积得以大幅缩小。GTX680中引入的最具颠覆性的特性,来自GPU Boost技术带来的动态频率管理机制,其设计TDP(Thermal Design Power)仅为195W,搭配双6pin供电接口即可满足超过1G的高频满载运行的需求。以294mm2对365mm2的核心面积优势,35.4亿对43亿晶体管优势,X3300对X2800的3D11跑分优势,以及10%的游戏性能优势,和195W对210W的功耗优势击败了AMD Radeon HD7970 Nvidia GPU Boost2023-1-1769技术发展技术发展 GPU Boost技术的核心内容
43、,在于通过遍布全卡的数十个传感器实时收集数据,并根据这些数据及时掌握整卡的即时功耗状况,接下来根据当前功耗与设计TDP之前的差距,动态的调节GPU的运行频率,使其能够运行在更高的频率之上,以达到随时随地自动获取最大性能的目的。利用功耗空间动态调节频率来解决GPU内部单元复用率不足的矛盾,同时还可以反向的利用限定性能上限的方式来换取更好的功耗发热表现。Nvidia GPU Boost2023-1-1770技术发展技术发展http:/ GeForce GTX 680 Review:Retaking The Performance CrownNvidia GPU Boost2023-1-1771技术
44、发展技术发展 GPU Boost的设计思路与CPU领域的Turbo Boost、Turbo Core等技术有些类似,但又不尽相同。CPU领域的这种技术主要被应用在多核心CPU上,所实现的效果简单来说就是当应用软件无法利用多线程运算时,CPU将能够自动让“多余”的核心处于接近关闭状态,并提高“可利用”核心的频率,借此达到加速的目的。规则是以CPU的TDP为“参照值”,“关”核心能够带来TDP的下降,而提升“可利用”核心频率则会带来TDP的上升,但最终无论怎样调整工作的核心数量及提升频率,最终都不会超过CPU的TDP。GPU Boost也有一个“参照值”,即GPU的功耗。不过GPU Boost并不
45、能关闭用不上的“核心”,它的主要功用是将剩余的功耗空间转换为GPU的频率,以此达到增加GPU性能的目的。这也就是为什么NVIDIA会为GTX680提供两个频率的原因,基础频率是GPU核心的默认频率,而提升频率则是Boost后的频率。Nvidia GPU Boost2023-1-1772技术发展技术发展简单来说,就是目前的大部分游戏均不能让GPU达到100%负载状态,所以GPU的实际运行功耗距离TDP还有一定的距离。而GPU Boost则是通过提升GPU频率的形式来填补功耗空间,由此在保证功耗水平不超TDP的情况下增强GPU性能。这也就是GTX680所谓提升频率的由来。并且Boost频率将并不只
46、限于将低功耗状态下的GPU频率提升至基础频率上,如果功耗状况允许的话,它还能将GPU提升到超过基础频率的频率下。GPU Boost实现的方法是NVIDIA在显卡PCB上加入了特殊的监测装置,可通过监测GPU功耗、负载及温度等信息配合硬件设定实时调整频率。Nvidia GPU Boost2023-1-1773技术发展技术发展 英特尔Turbo Boost的主旨在于在不超过总TDP的前提下,尽量挖掘CPU的性能潜力。在英特尔Nehalem、Lynnfield架构的处理器中,每个处理核心都带有自己的PLL同步逻辑单元,每个核心的时钟频率都是独立的,而且每个处理核心都是有自己单独的核心电压,这样的好处
47、是在深度睡眠的时候,个别的处理核心几乎可以完全被关闭。而在之前的多核心处理器中,所有的处理核心都具备相同的核心电压,也就是说着活跃的处理核心与不活跃的处理核心都要消耗相同的功耗。英特尔Nehalem架构处理器中的PCU(Power Control Unit)单元可以监控操作系统的性能,并且向其发出命令请求。因此它可以非常智能的决定系统的运行状态,是在高性能模式,还是在节电模式。Turbo Boost2023-1-1774技术发展技术发展 当应用负载提高时,系统可以在TDP的允许范围内对核心主频进行超频:如果4个CPU内核中有一个或两个核心检测到负荷不高,那么其功耗将会被切断,也就是将相关核心的
48、工作电压设置为0,而节省下来的电力就会被处理器中的PCU用来提升高负荷内核的电压,从而提升核心频率最终提升性能。当然不仅限于这一种状态,也可以是关闭一个核心或者是关闭三个核心。英特尔Turbo BoostTurbo Boost2023-1-1775技术发展技术发展文献14-15:lThe reasonable power envelope for future supercomputers has been projected to be 20 MW.lThe supercomputing community is now aiming to design exascale(1018 oper
49、ations/second)systems.To build such a system within 20 MW requires an energy efficiency of approximately 20 picojoules(pJ)per floatingpoint operation.Future servers and mobile devices will require similar efficiencies.lA latest Kepler GPU GTX680 yields approximately 61pJ per floating-point operation
50、 derived from 195 W for the GPU chip and 3090 Gflops.future2023-1-1776总结总结 功耗是IC设计长期面临的问题,分析当前的研究状况,未来的低功耗IC设计研究有如下发展趋势发展趋势:首先,系统级的低功耗设计研究。抽象层次越高,采用低功耗技术功耗可降低的比例越大。其次,面向功耗的软硬件协同设计。面向功耗的软硬件协同设计可以获得功耗优化的系统架构,再配合有效的功耗管理,可以大大降低最终的功耗。再次,异步电路的研究。同步电路的时钟功耗在整个系统的功耗中占了相当大的比例。异步逻辑无需全局时钟,而是采用握手信号协调模块问的工作,减少了时钟
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。