1、1高性能多核和众核处理机高性能多核和众核处理机芯片技术发展芯片技术发展李三立教授李三立教授清华大学清华大学2引言引言o处理机永远是计算机技术和产业的重要驱动力。处理机永远是计算机技术和产业的重要驱动力。o要进一步发展千亿次(要进一步发展千亿次(Petaflops)高性能计算机,)高性能计算机,是离不开多核与众核芯片的发展的是离不开多核与众核芯片的发展的;计算机体系结构的计算机体系结构的新技术大多体现在高性能多核与众核芯片上。希望我新技术大多体现在高性能多核与众核芯片上。希望我们关注高性能计算技术的发展;们关注高性能计算技术的发展;o现在计算机体系结构是现在计算机体系结构是“系统系统”都做到都做
2、到“芯片上芯片上”去去了(了(SOC)。希望我们计算机学院的)。希望我们计算机学院的“计算机组织计算机组织”和和“计算机体系结构计算机体系结构”课程的老师和学生能够在教学课程的老师和学生能够在教学与学习中增加这方面内容,老师在申请自然科学基金与学习中增加这方面内容,老师在申请自然科学基金和其它科研经费方面也注意加重这方面的研究方向;和其它科研经费方面也注意加重这方面的研究方向;o希望我们年轻教师和学生把兴趣放在这一领域,把我希望我们年轻教师和学生把兴趣放在这一领域,把我国的处理机芯片技术搞上去。国的处理机芯片技术搞上去。3我国万万亿次超级计算机我国万万亿次超级计算机CPU有望全部国产有望全部国
3、产化化 世界第一的世界第一的“天河一号天河一号”超级计算机系统采用了超级计算机系统采用了“飞腾飞腾-1000”高性能多核微处理器。高性能多核微处理器。“天河一号天河一号”:4700万亿次的峰值速度万亿次的峰值速度和和2566万亿次的持续速度万亿次的持续速度;1000万亿次万亿次/秒为:秒为:1Petaflops 2019-3-8日环球网报道国防科大校长张育林谈话日环球网报道国防科大校长张育林谈话4我国天河一号千万亿次超级计算机我国天河一号千万亿次超级计算机世界世界500强第一名,奥巴马专门提到它强第一名,奥巴马专门提到它5世界世界500强第一名天河强第一名天河1号插件版号插件版6提纲提纲o1。
4、多核与众核处理机结构芯片技术的需要。多核与众核处理机结构芯片技术的需要o2。多核和众核体系结构处理机芯片的发展。多核和众核体系结构处理机芯片的发展o3。异构多核众核结构芯片。异构多核众核结构芯片o4。片上系统片上系统SOC互联网络的发展互联网络的发展o5。微电子工艺的进一步发展。微电子工艺的进一步发展o6。未来。未来exaFlops高性能计算机芯片预测高性能计算机芯片预测o7。结论。结论7(一)。(一)。多核与众核处理机多核与众核处理机结构芯片技术的需要结构芯片技术的需要87/26/20228 8高性能计算应用需求高性能计算应用需求1 Zettaflops100 Exaflops10 Exaf
5、lops1 Exaflops100 Petaflops10 Petaflops1 Petaflops100 TeraflopsSystem PerformancePlasma Fusion Simulation Jardin 03Simulation of more complex biomolecular structures200020202019No schedule provided by sourceApplicationsJardin 03 S.C.Jardin,“Plasma Science Contribution to the SCaLeS Report,”Princeton
6、 Plasma Physics Laboratory,PPPL-3879 UC-70,available on Internet.Malone 03 Robert C.Malone,John B.Drake,Philip W.Jones,Douglas A.Rotman,“High-End Computing in Climate Modeling,”contribution to SCaLeS report.NASA 99 R.T.Biedron,P.Mehrotra,M.L.Nelson,F.S.Preston,J.J.Rehder,J.L.Rogers,D.H.Rudy,J.Sobies
7、ki,and O.O.Storaasli,“Compute as Fast as the Engineers Can Think!”NASA/TM-2019-209715,available on Internet.NASA 02 NASA Goddard Space Flight Center,“Advanced Weather Prediction Technologies:NASAs Contribution to the Operational Agencies,”available on Internet.SCaLeS 03 Workshop on the Science Case
8、for Large-scale Simulation,June 24-25,proceedings on Internet a pnl.gov/scales/.DeBenedictis 04,Erik P.DeBenedictis,“Matching Supercomputing to Progress in Science,”July 2019.Presentation at Lawrence Berkeley National Laboratory,also published asSandia National Laboratories SAND report SAND2019-3333
9、P.Sandia technical reports are available by going to sandia.gov and accessing the technical library.HEC04 Federal Plan for High-End Computing,May,2019.Compute as fast as the engineer can thinkNASA 99 100 1000 SCaLeS 03 Geodata Earth Station Range NASA 02Full Global Climate Malone 03 Courtesy of Erik
10、 P.DeBenedictis simulation of medium biomolecular structures(us scale)simulation of large biomolecular structures(ms scale)protein folding50 TFLOPS250 TFLOPS1 PFLOPSHEC04cpeg421-2019-F/Topic-3-I等离子体等离子体全球气候模型全球气候模型海量海量地球地球数据数据更复杂生物更复杂生物分子结构模拟分子结构模拟蛋白质结构蛋白质结构生物生物分子分子结构结构系统性系统性能能应用应用1万万万亿万亿次次100万万万亿次万
11、亿次1000万万亿万万亿次次9晶体管数目增长晶体管数目增长-Intel320亿晶体管亿晶体管10芯片上频率不能持续增长芯片上频率不能持续增长功耗问题功耗问题停顿了停顿了11功耗引起发热直观图片12CPU的水冷和风冷的水冷和风冷水冷系统水冷系统风冷系统风冷系统13解决功耗增长和晶体管增长的矛盾解决功耗增长和晶体管增长的矛盾o解决方案:解决方案:新制造材料;新制造材料;新制冷技术;新制冷技术;多核和众核体系结构多核和众核体系结构14多核和众核的发展对于性能的影响多核和众核的发展对于性能的影响多核三年的变化多核三年的变化性能性能年份年份Intel着重在着重在PC机发展机发展15体系结构进展:体系结构
12、进展:单核单核多核多核众核众核-片上互联片上互联1993,Pentium2019,Pentium MMX2019,Pentium II2019,Pentium III2019,Tualatin2019,Pentium 4Northwood2019,Pentium D2019,Core 2 Duo(Conroe)2019,Core 2 Quad(Kentisfield)2019,TeraScale 80-core prototypeSingle core with increased performanceMulticore processor with more and more cores!
13、Key for Multicore:Interconnection16AMD通用通用单核的内部结构单核的内部结构 AGUAGUInt Decode&RenameFADDFMISCFMUL44-entryLoad/StoreQueue36-entry FP schedulerFP Decode&RenameALUAGUALUMULTALUResResResL1Icache64KBL1Dcache64KBFetchBranchPredictionInstruction Control Unit(72 entries)FastpathMicrocode EngineScan/Align/Decode
14、ops取指取指转移转移预测预测微码微码硬布线硬布线微操作微操作数据缓存数据缓存指令缓存指令缓存17AMD 双核芯片的布局双核芯片的布局o双核双核AMD Opteron 处理机处理机o 199mm2 90nm 工艺工艺o单核单核 AMD Opteron 处理机处理机 o 193mm2 130nm 工艺工艺18AMD Opteron 的多核架构的多核架构19Intel多核与众核解决路线多核与众核解决路线2005200920062008200720102004201120122013201420152016201720182019202012481625632641285121024Pentium
15、DCore DuoCore 2 DuoConroe,Allendale,Wolfdale,Merom,PenrynCore 2 DuoKentsfield,YorkfieldCore i7Sandy BridgePolaris TeraScale80 Cores/80 ThreadsSingle Chip Cloud Computing48 Cores/48 ThreadsKnight Corner50 Cores/200 ThreadsCommercial PathResearch PathNehalem 核数核数商业路径商业路径研究路径研究路径20Intel的的 Nehalem多核结构多核
16、结构要有图形要有图形核核快速快速通道通道接口接口21Intel 的的 Nehalem四核芯片布局四核芯片布局快速通道连接快速通道连接96GB/S 快速通道连接快速通道连接96GB/S22Intel Nehalem多核处理机层次式存储结构多核处理机层次式存储结构CPU Core32KB L1 D$32KB L1 I$256KB L2$8MB Shared L3$CPU Core32KB L1 D$32KB L1 I$256KB L2$4-8 CoresDDR3 DRAM Memory ControllersQuickPath System InterconnectEach direction i
17、s 20b6.4Gb/sEach DRAM Channel is 64/72b wide at up to 1.33Gb/sQPI是是重要特点重要特点23Intel 通用通用Nehalem的单核结构的单核结构预取缓冲预取缓冲预译码预译码指令队列对准指令队列对准转移预测转移预测循环流译码循环流译码快速通道访存快速通道访存QPI乱序执行缓冲乱序执行缓冲第三级第三级Cache 24J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAM
18、J JASOND J FMAMJ JASOND J FMAMJ JASONDPower4(2019)1.1 to 1.3 GHz(1)(2)(2)Power4+(2019)1.9 GHz(1)(2)(2)Power5(2019)1.5-1.9 GHz(1)(2)(4)Power5+(2019)1.5-2.26 GHz(1)(2)(4)CBE(2019)3.2 GHz(1)(9)(10)PowerXCell8i(2019)3.2GHz(1)(9)(10)Xenon(2019)3.2 GHz(1)(3)(6)Power63.5-4.7 GHz(1)(2)(4)Power6+5 GHz(1)(2)(
19、4)Power6+5 GHz(1)(2)(4)Pentium D3.8 GHz(1)(2)(4)Core 21.8-3.2 GHz(1)(4)(8)Dual Core Atom0.8-2.06 GHz(1)(2)(2)Sandy Bridge4.6 GHz(1)(8)(16)Xeon2.863.56 GHz(1)(2)(2)Xeon Quad Code2.133.56 GHz(1)(4)(8)Xeon Beckton2.83.56 GHz(1)(8)(16)Core 7i2.663.33 GHz(1)(4)(8)Opteron Denmark1.6-2.8GHz(1)(2)(2)Opteron
20、 Barcelona1.76-2.6GHz(1)(4)(4)Opteron Istanbul2.26-2.66GHz(1)(6)(6)Opteron Sao Paolo?(1)(6)(6)Opteron Magny Cours?(1)(12)(12)Opteron Interlagos?(1)(16)(16)Ultra SPARC IV1-1.356 GHz(1)(2)(2)Ultra SPARC IV+1.5-2.16 GHz(1)(2)(2)Ultra SPARC T11-1.46 GHz(1)(4)(32)Ultra SPARC T21-1.66 GHz(1)(8)(64)Ultra S
21、PARC VII2.4-2.56 GHz(1)(4)(16)Ultra SPARC VIIIfx2.4-2.56 GHz(1)(8)(16)IBMSUN/ORACLEAMDINTEL20192019201920192019201920192019200920192019NameHertz(Processor)(Cores)(Threads)7/26/202224JPL-Dec-01-2009Chips with 8 physical cores or more其他公司多核其他公司多核/众核发展计划众核发展计划25晶体管数(千)单线程性能单线程性能(SpecINT)频率(MHz)典型功耗(瓦瓦)
22、核数目小结:小结:35年处理机发展综合趋势年处理机发展综合趋势26(二)。多核和众核体系结构(二)。多核和众核体系结构处理机芯片的发展处理机芯片的发展27为何要多核?为何要多核?CoreCacheCoreCacheCoreVoltage=1Freq =1Area =1Power =1Perf =1Voltage=-15%Freq =-15%Area =2Power =1Perf =1.8In the same process technology28GPGPGPGPGPGPGPGPGPGPGPGPGeneral Purpose Cores进一步多核异构芯片进一步多核异构芯片-SOCSPSPSP
23、SPSpecial Purpose HWCCCCCCCCCCCCCCCCInterconnect fabric通用核通用核专用硬件专用硬件互联网络互联网络29多核技术将要多样化多核技术将要多样化!Multiple parallel general-purpose processors(GPPs)Multiple application-specific processors(ASPs)Sun Niagara8 GPP cores(32 threads)IntelXScale Core32K IC32K DCMEv210MEv211MEv212MEv215MEv214MEv213Rbuf64 1
24、28BTbuf64 128BHash48/64/128Scratch16KBQDRSRAM2QDRSRAM1RDRAM1RDRAM3RDRAM2GASKETPCI(64b)66 MHzSPI4orCSIXStripeE/D QE/D QQDRSRAM3E/D QMEv29MEv216MEv22MEv23MEv24MEv27MEv26MEv25MEv21MEv28CSRs-Fast_wr-UART-Timers-GPIO-BootROM/SlowPortQDRSRAM4E/D QIntel Network Processor1 GPP Core16 ASPs(128 threads)IBM Ce
25、ll1 GPP(2 threads)8 ASPsPicochip DSP1 GPP core248 ASPsCisco CRS-1188 Tensilica GPPs处理机上有处理机上有上千个线程上千个线程处理机就是摩尔定理中的处理机就是摩尔定理中的晶体管晶体管“The Processor is the new Transistor”Rowen30AMD做的做的GPU多核多核SIMD芯片结构芯片结构31多核伴随指令的扩展多核伴随指令的扩展-加速加速32众核处理机结构众核处理机结构3232Intel Terascale 80 核处理机Tilera 64核处理机云存储服云存储服务器务器无线网络无线
26、网络33NVIDIAs Fermi GPU architecture consists of 16 streaming multiprocessors(SMs),each consisting of 32 cores,each of which can execute one floating-point or integer instruction per clock.The SMs are supported by a second-level cache,host interface,GigaThread scheduler,and multiple DRAM interfaces.NV
27、IDIA的新的新GPU众核芯片众核芯片FERMI 结构结构SM32核核34Each Fermi SM includes 32 cores,16 load/store units,four special-function units,a 32K-word register file,64K of configurable RAM,and thread control logic.Each core has both floating-point and integer execution units寄存器堆寄存器堆32K字字浮点浮点定点定点每个每个CUDA核核35多核芯片的片上、片外访存速度多
28、核芯片的片上、片外访存速度设计考虑设计考虑(数据访问速度数据访问速度Memory Wall)处理部件处理部件64 寄存器寄存器片上片上Cache16MB/32KBLoad 1,Store 11.92TB/sLoad 2,Store 1640GB/s片外片外静态静态CacheSRAM 2.5MB Load 20 cycles,Store 10 cycles 320GB/s(片外差(片外差6倍)倍)板外动板外动态存储态存储器器DRAM16GBLoad 36 cycles,Store 18 cycles 16GB/s(板外差(板外差120倍)倍)36(三)。异构多核结构芯片(三)。异构多核结构芯片3
29、7为什么要发展异构众核芯片为什么要发展异构众核芯片o1。要研制千万亿次。要研制千万亿次(PetaFlops)高性能计算机,单靠高性能计算机,单靠Intel 或或AMD通用同构型众核芯片是不行的,必须要有通用同构型众核芯片是不行的,必须要有加速器加速器;o2。同构众核芯片又会遇到功耗问题,每个核都要有它。同构众核芯片又会遇到功耗问题,每个核都要有它Cache等配合硬件;因此,加速器要用较大量的等配合硬件;因此,加速器要用较大量的“小核小核”;o3。如果。如果CPU和和GPU芯片合用,因为芯片合用,因为GPU要求大量数据,所要求大量数据,所以在芯片之间以在芯片之间传送大量数据,是瓶颈传送大量数据,
30、是瓶颈,很难达到峰值;,很难达到峰值;o4。因此,。因此,CPU和和GPU应该做在一个芯片上,芯片上的数据应该做在一个芯片上,芯片上的数据传输频带要宽很多;更进一步,传输频带要宽很多;更进一步,GPU仍然有编程困难仍然有编程困难的问题,的问题,如有针对专门用途的、算法和编程都比较能简化的小核,更为如有针对专门用途的、算法和编程都比较能简化的小核,更为合适。合适。另一个办法是在众核中扩充指令、实现加速。另一个办法是在众核中扩充指令、实现加速。o5。高性能计算机有分向的趋势,一般通用。高性能计算机有分向的趋势,一般通用HPC用现有的刀片用现有的刀片式服务器、再加上式服务器、再加上Infiniban
31、d就可以很快造成,价廉、研制就可以很快造成,价廉、研制速度快;而自己专门设计板级产品的、几个速度快;而自己专门设计板级产品的、几个PetaFlops的的 HPC一般都只能针对一、二种应用,有一般都只能针对一、二种应用,有专用化专用化的趋势。的趋势。38Enabled by:Moores Law Voltage ScalingSingle-Core EraMulti-CoreEraHeterogeneousSystems EraEnabled by:Moores Law Desire For Throughput20 years of SMP archPowerParallel SW avail
32、abilityPerformance ScalabilityMicro-Architecture受限于:受限于:Power Complexity受限于:受限于:Enabled by:Moores Law Abundant data parallelism Power efficient GPUs当前受限于:当前受限于:Programming models Communication overheads处理机性能的三个时代处理机性能的三个时代单线程性能单线程性能吞吐率性能吞吐率性能针对应用目标的性能针对应用目标的性能We are hereWe are hereWe are here?单核单核多核
33、多核异构异构39IBM异构型异构型Cell-NOC:八个八个64位向量部件位向量部件SXU和标量部件和标量部件PXUCell处理机处理机40Observed clock speed:a wide range of operating frequencies are supported to optimize for power and yield;Peak performance(single precision):256 GFlopsPeak performance(double precision):26 GFlopsIBM Cell 异构多核处理器结构详细结构图异构多核处理器结构详细结构
34、图双精度双精度单精度单精度向量部件向量部件SIMD标量部件标量部件互联网络互联网络41下一步:千万亿次高性能计算机怎么办?下一步:千万亿次高性能计算机怎么办?Intel 或或 AMD通用通用处理机再多,也无法达到;处理机再多,也无法达到;只有具有只有具有加速器加速器功能的功能的异构异构众核处理机芯片才可以达到!众核处理机芯片才可以达到!硬件可以达到,软件没有充硬件可以达到,软件没有充分准备好(分准备好(我们大学以后不我们大学以后不一定造一定造HPC机器,可以搞软机器,可以搞软件,和结合算法的软件)件,和结合算法的软件)。42GPU对于超级计算机并非理想对于超级计算机并非理想oGPU对于高性能计
35、算的编程不适当,解决办法是把对于高性能计算的编程不适当,解决办法是把CPU和和GPU结合结合。oJack Dongarra说:说:“The obvious upside of GPUs is that they provide compelling performance for modest prices.The downside is that they are more difficult to program,since at the very least you will need to write one program for the CPUs and another progr
36、am for the GPUs.Another problem that GPUs present pertains to the movement of data.Any machine that requires a lot of data movement will never come close to achieving its peak performance.The CPU-GPU link is a thin pipe,and that becomes the strangle-point for the effective use of GPUs.In the future
37、this problem will be addressed by having the CPU and GPU integrated in a single socket。”43Cell处理机对于高性能计算机已经死亡处理机对于高性能计算机已经死亡oCell is Dead for HPCoChips that contain both x86 general processing cores as well as graphics processing cores are essentially heterogeneous multi-core processors,which AMD ca
38、lls Fusion.The vast majority of multi-core chips today are homogenous chips that contain a number of similar processing engines.There are processors with different types of cores the Cell chips jointly developed by IBM,Sony Corp.and Toshiba Corp.which originally promised to redefine the market of mu
39、ltimedia chips as well as CPUs for HPC market.However,since all three companies cease to develop Cell,it has no future.oJack Dongarra 说说:“The Cell architecture is no longer being developed,so it is effectively dead.No new supercomputers will use Cell。”44CPUmulti-threadingmulti-coremany-corefixed fun
40、ctionpartially programmablefully programmable?programmabilityparallelismA Likely Trajectory-Collision or Convergence?CPUGPUmulti-threadingmulti-coremany-corefixed functionpartially programmablefully programmablefuture processor by 2019?programmabilityparallelismafter Justin Rattner,Intel,ISC 2019未来可
41、能未来可能的轨迹的轨迹多线程多线程多核多核众核众核全部可编程全部可编程部分可编程部分可编程并行度并行度可编程度可编程度通用性和并行度的结合通用性和并行度的结合-异构众核异构众核45IBM Cyclops-64(C64)芯片)芯片体系结构体系结构On-chip bisection BW=0.38 TB/s,total BW to 6 neighbors=48GB/sec80个核个核46异构型处理机构成异构型处理机构成1.1PetaFlops 超级计算机的组装超级计算机的组装47其他多用途的异构多核芯片oCombination of different coresoTwo main options
42、:oDifferent typeso Microcontroller+DSP,Processor+Accelerator.oDifferent performanceo Big processor+small processoroAdvantagesoProcessors can be optimized for different taskso Operating system,multimedia,graphics,low power appsoProcessors are decoupledo Independent SW developmentoDisadvantagesoDiffer
43、ent architectures-more to learn.oDifferent toolsoMore complex SW48Texas 的用于的用于移动终端移动终端的异构多核结构芯片的异构多核结构芯片各个核并行执行不同的任务,各个核并行执行不同的任务,可用在可用在移动终端移动终端49(四)。片上系统(四)。片上系统SOC 互联网络的发展互联网络的发展50NOC的发展的发展片上互联网络随工艺进步而发展片上互联网络随工艺进步而发展片上互联必然发展到片上互联必然发展到NOC(Network On Chip)80386奔腾奔腾多核多核51片上众核系统的互联网络之一片上众核系统的互联网络之一片上
44、众核片上众核+通道通道SOC上面:上面:P是处理机的核是处理机的核52片上众核系统的互联网络之二片上众核系统的互联网络之二片上众核片上众核+通道通道+路由器路由器R路由器结构图路由器结构图开关开关53片上互联网络的两种典型拓扑结构片上互联网络的两种典型拓扑结构Torus 拓扑结构拓扑结构Mesh 拓扑结构拓扑结构54时钟:时钟:NOC的的SOC的片上时钟是的片上时钟是分布分布式的式的RRRRRRRRRRRRRRRR每一个颜色块代每一个颜色块代表一个时钟域表一个时钟域两种研究领域两种研究领域:非同步路由器非同步路由器 设计简单,低设计简单,低功耗功耗 非同步互联非同步互联 高频宽,低功高频宽,低
45、功耗耗图中图中R是是NOC路由器路由器55未来Exa-Scale片上网络NOCParallelism replaces clock frequency scaling and core complexityResulting ChallengesuScalabilityuProgramminguPower56未来Exa-Scale片上网络NOCUnpredictable Traffic LoadApplication2Application1ConventionalNoC System(number of cores102)Exa-Scale Micro-Networking System(n
46、umber of cores:102104)UnbalancedResource AllocationScalabilityGood Performance onSmall-Scale NetworkFaulty Router&LinkComplex Design&VerificationNoC FeaturesRegular ArchitecturePacket-based TransmissionFlexible Bandwidth Utilization57MIT:对于众核结构的分析和考虑:对于众核结构的分析和考虑u阵列式上千个小核可以解决芯片面积和阵列式上千个小核可以解决芯片面积和扩展
47、性问题,但是,编程将成为难于逾扩展性问题,但是,编程将成为难于逾越的壁垒;越的壁垒;u上千个核的并行化应用是非常艰难的:上千个核的并行化应用是非常艰难的:1.任务和数据的划分;任务和数据的划分;2.通信会导致延迟的增加;通信会导致延迟的增加;3.较远距离的通信会引起沿路上的资源竞争;从而较远距离的通信会引起沿路上的资源竞争;从而降低功能增加功耗;降低功能增加功耗;4.没有有效的广播式通信(硅片上金属线太长)。没有有效的广播式通信(硅片上金属线太长)。58MIT:对于众核结构的分析和考虑:对于众核结构的分析和考虑u为提高上千众核芯片性能,必须为提高上千众核芯片性能,必须有效管理通信有效管理通信和
48、和局域性局域性:p任务和数据两者都要优化划分和(位置)置放:任务和数据两者都要优化划分和(位置)置放:分析通信模式以便使延迟最小化;分析通信模式以便使延迟最小化;数据必须放在经常使用它的执行部件附近;数据必须放在经常使用它的执行部件附近;某些常用程序要靠近某些常用程序要靠近DRAM和和I/O;p动态的和不可预测的通信是很难优化的;动态的和不可预测的通信是很难优化的;u为此,为此,MIT提出用提出用广播式光通信广播式光通信代替电连线的代替电连线的阵列式通信:阵列式通信:广播式通信广播式通信容易实现容易实现共享存储共享存储模式,从而易于编程;模式,从而易于编程;减少减少局域性的管理局域性的管理;价
49、廉而且功耗小。价廉而且功耗小。技术基础研究的好题目技术基础研究的好题目5959ATAC ArchitecturepswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmOptical Broadcast WDM InterconnectElectrical Mesh InterconnectMIT麻省理工学院提出麻省理工学院提出的上千个众核芯片上的的上千个众核芯片上的广播式光通信广播式光通信ATA
50、C电连线的阵列电连线的阵列式互联网络式互联网络广播式光通广播式光通信互联网络信互联网络60MIT提出的众核芯片提出的众核芯片广播式光通信广播式光通信的优点的优点o光导通过众核芯片上光导通过众核芯片上的每一个核;的每一个核;o光导的不同波长可以光导的不同波长可以完全消除资源竞争;完全消除资源竞争;o型号全部可以在型号全部可以在 2ns到达所有上千到达所有上千个核个核o所有核都可以接收到所有核都可以接收到同样的信号,实现真同样的信号,实现真正的广播式传播。正的广播式传播。广播式光通信互联托扑结构广播式光通信互联托扑结构61(五)。微电子工艺的(五)。微电子工艺的 进一步发展进一步发展62Teras