1、证券研究报告 电子行业 2021年1月6日CPU研究框架研究框架行业深度报告目录目录一、一、CPU投资逻辑框架投资逻辑框架从指令集架构看从指令集架构看CPU市市场格局场格局CPU产业链:先进制产业链:先进制程程数字数字芯芯片产片产业业链链 当前国产当前国产CPU发展的发展的三三大路线大路线我们如何看待国产我们如何看待国产CPU未来未来格格局局 二、二、详解详解CPU:IC产业中的产业中的“珠穆珠穆朗朗玛峰玛峰”三、知己知彼:三、知己知彼:CPU的的全球全球格格局与局与行行业龙头业龙头 四、国产四、国产CPU自主之自主之路路:详:详解解六大六大国国产产CPU从指令集架构从指令集架构看看CPU市场
2、格局市场格局资料来源:方正证券研究所RISCCISCAlphaX86RISC-VPower PCMIPSARM嵌入式、桌嵌入式、桌 面、服务器面、服务器服务器、桌面服务器、桌面服务器服务器IOT、手机、手机服务器、桌面服务器、桌面嵌入式、服嵌入式、服 务器、桌面务器、桌面90% RISC90% CISCCPU按指令集架构分类按指令集架构分类国外企业国外企业国内企业国内企业应用领域应用领域资料来源:方正证券研究所国国产产CPU产业链产业链先进制程数字芯片产业链先进制程数字芯片产业链 CPU是数字芯片是数字芯片,基于制程越小,性能越好的规律,CPU产产业链业链是是先进先进制制程数程数字字芯片芯片产
3、产业链。业链。 当前国产当前国产CPU产业链产业链进进口替口替代代:设计环节,华为鲲鹏,飞腾等龙头已经跻身世界一流水平,封测环节,通 富承接AMD7nmCPU封测,14nm及以下结点的先进制程,设设备备、材、材料料、EDA/IP、制造等、制造等环环节节与国外领先 龙头差距较大,目前仍采用 “外外循环循环为为主主+内内循环循环为为辅辅”的模式。北方北方 华创华创华海华海清科清科华峰华峰测控测控屹唐屹唐盛美盛美中微中微万业万业 企业企业至纯至纯 科技科技精测精测 电子电子设备设备材料材料EDA/IP沪硅沪硅 产业产业江丰江丰 电子电子神工神工股份股份安集安集 鼎龙鼎龙金宏金宏气体气体雅克雅克 科技
4、科技寒寒 武纪武纪芯原芯原 股份股份芯芯 华章华章芯动芯动 科技科技制造制造封测封测中芯中芯 国际国际长电长电 科技科技通富通富微电微电设计设计华为华为飞腾飞腾兆芯兆芯申威申威龙芯龙芯海光海光华天华天 科技科技资料来源:方正证券研究所海外海外CPU产业链产业链先进制程数字芯片产业链先进制程数字芯片产业链 CPU产业链的巨头大产业链的巨头大多多集中集中在在海外海外,它们位居产业链各个环节核心, 对对全球全球CPU行业行业起起着决着决定定性的性的作作用用。 设计环节:英特尔和AMD几乎垄断通用型CPU的市场;设备、材料、EDA/IP等环节国内龙头与国外龙头差 距较大,国产化率较低;制造环节:目前只
5、有台积电和三星有5nm制程生产能力,但均需使用美国设备; 封测环节:目前中国台湾、中国大陆、美国三分天下。设备设备材料材料EDA/IP信越信越化学化学SUMCO卡卡 博特博特陶氏陶氏住友住友化学化学新思新思 科技科技铿腾铿腾 电子电子明导明导国际国际ARM设计设计英特尔英特尔AMD苹果苹果三星三星IBM高通高通联发科联发科制造制造台台 积电积电英英 特尔特尔三星三星格罗格罗 方德方德封测封测日日 月光月光安靠安靠矽品矽品 精密精密英特尔英特尔三星三星应用应用 材料材料阿阿斯麦斯麦东京东京电子电子LAM科天科天爱德万爱德万泰瑞达泰瑞达国产国产CPU发展的三大路线发展的三大路线IP内核授权内核授权
6、指令集架构授权指令集架构授权授权授权+自主研制指令集自主研制指令集指令集授权方式指令集授权方式技术路线技术路线核心代表厂商核心代表厂商自主化程度自主化程度自主化程度:极高,自主化程度:极高,申威 已基本实现完全自主可控缺点:缺点:生态构建极其困难自主化程度:较高,自主化程度:较高,安全 基础相对牢靠、拥有自主 发展权缺点:缺点:生态构建较为困难自主化程度:低,自主化程度:低,未来扩 充指令集难度较大,但生 态迁移成本小、性能高缺点:缺点:安全基础不牢靠基于指令系统进基于指令系统进 行行SOC集成设计集成设计X86内核授权内核授权基于指令集架构基于指令集架构 授权自主设计授权自主设计 CPU核心
7、核心ARM指令集授权指令集授权自主研制指令集自主研制指令集MIPS架构架构+自研自研Alpha架构架构+自研自研资料来源:华经情报网,方正证券研究所整理我们如何看待国产我们如何看待国产CPU未来未来格格局局 除了先进制程某些环节缺失以外,国产CPU还存在一个严重的短板,即来自于国国内内CPU生生态态建设建设的的落后。落后。 生生态对于态对于CPU产业影产业影响响极大极大。上世纪90年代,以复杂指令集为代表的英特尔凭借着与微软的Wintel体体系系,在通 用CPU领域占据了绝大多数份额,至今仍牢不可破。精简指令集则被逐渐挤压到嵌入式市场,后来智能手机兴 起后才获得新生:ARM通过构筑与Andro
8、id的生态合作(AA体体系系),),占占据了据了全全球球95%的的移移动芯动芯片片授权授权市市场。场。 对对于于X86内核授权的内核授权的厂厂商:商:生态最为完善,但发展存在 安安全可全可控控和技和技术术授授权权两大壁垒,海光自去年被美国政府 列入实体清单后,AMD表示最新的架构不再进行授权,兆芯使用威盛电子的x86早期授权,性能相对落后。 对对于于Arm指令集指令集授授权厂权厂商商:生态体系与安全可控最为平衡,且通过架构授权把握主动权,随着Arm生态愈发繁 荣,若不考虑美国实体清单的负面影响,前景最为光明。 对对于自研架构厂商:于自研架构厂商:完全自主可控的引领者,厚积而薄发,其最大的瓶颈在
9、于生态壁垒。 总总 结结:目前国产CPU主要需求来自服服务务器器、政政企企、工工业业等等市市场场,鲜少出现在消费级市场。我们认为基基于于安安全全的的自自 主可控是推动国产主可控是推动国产CPU成成长长的主的主要要力量力量,且基于架构的差异性带来的应用不同,我们认为指令集架构不会直接 消亡, 不同架构都会不同架构都会衍衍生出生出行行业龙业龙头头,考虑通用CPU等格局极为稳固,可关注物物联网联网以以及汽及汽车车等新等新兴兴领领域域。芯芯 片片 及及 网网 络络应应 用用 软软 件件终终端端 企企 业业中中 间间 件件 及及 数数 据据 库库资料来源:电子工程专辑,方正证券研究所整理目录目录一、一、
10、CPU投资逻辑框架投资逻辑框架二、详解二、详解CPU:IC产业中的产业中的“珠穆珠穆朗朗玛峰玛峰”CPU的定义及内部结构的定义及内部结构 CPU的指令集与微架构的指令集与微架构CPU发展历程与未来发展历程与未来趋趋势剖析势剖析 CPU的需求侧与供给的需求侧与供给侧侧分析分析三、知己知彼:三、知己知彼:CPU的的全球全球格格局与局与行行业龙头业龙头四、国产四、国产CPU自主之自主之路路:详:详解解六大六大国国产产CPU 中央处理器中央处理器(Central Processing Unit)作为计算机系统)作为计算机系统的的运算运算和和控制控制核核心,心,是是信息信息处处理、理、程程序运序运行行的
11、最的最 终执行单元。终执行单元。CPU核心主要是由大量的运算器、控制器、寄存器组成。 运算器负责算术运算和逻辑运算。控制器负责应对所有的信息情况,调度运算器把计算做好。寄存器既要 承接控制器的命令,传达命令给运算器;还要帮运算器记录已处理或者将要处理的数据。 几乎所有的CPU的运作可以简要概括为“取”,“解码”和“执行”三大步骤,此三个步骤统称为指令周期。通常,CPU核心从存储单元或内存中提取指令。然后,根据指令集由指令解码器执行解码,将指令转换 为控制CPU其他部份的信号。最后通过运算器中的微架构进行运算得到结果。 CPU内核的基础就是内核的基础就是指指令集令集和和微架微架构构。CPU定义和
12、内部结构定义和内部结构进程代 码 段数 据 段指令1 指令2 指令3 指令n数据1 数据2 数据n内存内存CPU指令计数器指令寄存器控 制 单 元指令指令指令地址指令地址存储单元运算单元 控制指令数据数据操作数地址操作数地址资料来源:中国电子网,PCWORLD,方正证券研究所整理CPU的内部组成部份和工作原理的内部组成部份和工作原理英特尔英特尔CPU内核图内核图内内 核核数据数据CPU指令集概述指令集概述CPU指令集指令集(Instruction Set)是)是CPU中计算和控制计算机系统所有指令的集合中计算和控制计算机系统所有指令的集合。指令集包含了基本数据类型,指令集,寄存器,寻址模式,存
13、储体系,中断,异常处理以及外部I/O,一系列的opcode即操作码(机器语言),以及由特定处理器执行的基本命令。指令集一般被整合在操作系统内核最底层的硬件抽象层中。指令集属于计算机中硬件与软件的接指令集属于计算机中硬件与软件的接 口,它向操作系统定义了口,它向操作系统定义了CPU的基本功能。的基本功能。 现阶段的指令集可以被划分为复杂指令集现阶段的指令集可以被划分为复杂指令集(CISC)与精简指令集与精简指令集(RISC)两类两类。资料来源:太平洋电脑网,方正证券研究所整理CISCRISCSPARCPower PCALPHAMIPSRISC-VARMX86主流主流CPU指令集划分及设计机构指令
14、集划分及设计机构英特尔英特尔X86指令集指令集PA-RISC资料来源:英特尔,CSDN,方正证券研究所整理CPU指令集:指令集:CISC剖析剖析 复复杂指令集诞生于杂指令集诞生于1960年年代代,在,在精精简指简指令令集之集之前前,被用来解决语义鸿沟。当时的复杂指令集经过高度编 码,支持汇编语言,拥有很高的代码密度,有助于缩小程序,减少主存储器的访问次数,极大地节省了 计算机存储器和磁盘存储成本,并且速度更快。 复杂指令集是相对精简指令集而言的,所有除了精简指令集之外的都可以划归到复杂指令集之中。复杂 指令集和精简指令集的显著差异是大多数的精简指令集采用等长结构,并且严格区分存储和读取。 复杂
15、指令集通常出现在读取和存储通过算法相连的计算机中, 如如服服务器务器和和个人个人电电脑中脑中的的X86指令指令集集。 复杂指令集的单一指令可以执行数个低阶操作程序,例如存储读取,算法运行和记忆存储,或者可以用单一指令来实现多步操作或寻址。 随随着个人计算机的普及着个人计算机的普及和和计算计算机机分工分工的的细化细化,复杂复杂指指令集令集在在低算低算力力需求需求的的计算计算机机中出中出现现了了“过过度度设设计计”的的现象,造成了寄存器现象,造成了寄存器一一定程定程度度上的上的浪浪费,费,精精简指简指令令集由集由此此孕育孕育而而生生,二者并行发展了近50年。嵌入嵌入式式CISC模拟机模拟机英特尔英
16、特尔X86指令集和相关专利发展史指令集和相关专利发展史资料来源:台湾WORD,中科微知,方正证券研究所整理CPU指令集:指令集:RISC剖析剖析 精简指令集采用小型,精简指令集采用小型,高高度优度优化化的指的指令令集而集而非非更复更复杂杂和特和特定定化的化的指指令。令。 精简指令集的主要特点是通过大量寄存器和高度规则的指令流水线优化了指令集,从而使每条指令的时钟 周期数减少。精简指令集的另一个特点是读取/存储结构,在该指令集中存储访问必须通过完整的特定指令,而不是特定指令中的一部分。 精简指令集的思想成立精简指令集的思想成立于于1970年年代代,成,成熟熟于于1980年代年代。斯坦福大学的MI
17、PS指令集和伯克利分校的SPARC指令集是当时的先驱。随着2010年RISC-V的推出,精简指令集进入了开源的第五世代。 目前,精简指令集被广泛地运用于各个领域。以以ARM为为代代表表的的精精简简指指令令集集被被广广泛泛地地运运用用于于手手机机、平平板板等等移移 动终端。动终端。日本富岳超算也运用精简指令集,登顶2020年6月的超算排行榜。基于基于RISC技术技术的的8位微控制器设计位微控制器设计RISC发展历程发展历程19811983198419882010201320142015201720182019RISC-V商业软件、英伟达采用商业软件、英伟达采用RISC-VRISC-V首个商业许可
18、首个商业许可首个首个RISC-V峰会、红帽采用峰会、红帽采用RISC-VRISC-V基金会和基金会和SiFive公司成立公司成立RISC-1RISC-2RISC-3 RISC-4 RISC-5EOS14 45nm首个首个Linux移植移植CPU指令集指令集:CISC与与RISC特点的对比特点的对比CISC与与RISC无论哪一方都没有绝对的优势或劣势无论哪一方都没有绝对的优势或劣势。 从硬件角度分析:从硬件角度分析:CISC采用的是不等长指令集,因此在执行单条指令时需要较多的处理工作,但是它的 优势往往在于部份特定专业领域的应用。而RISC执行的是等长精简指令集,CPU在执行指令的时候速度 较快
19、且性能稳定,因此RISC适合采用流水线方式运作,且在并行处理方面明显优于CISC。 从性能角度分析:从性能角度分析:CISC阵营的Intel和AMD在提升芯片性能上做出了持续的努力,CISC芯片的功耗被放 在了性能后的第二位;而RISC-ARM本身出现时间较CISC-X86晚十年左右(ARM诞生于1985年,X86 诞生于1978年),ARM、MIPS在创始初期缺乏与Intel产品对抗的实力,专注于以低功耗为前提的高性 能芯片。资料来源:CSDN,方正证券研究所整理CISC与与RISC特点对比特点对比CISC复杂指令集复杂指令集RISC精简指令集精简指令集指令系统指令系统使用频率差别大,可变长
20、格式使用频率接近,定长格式,大部分为单周期指令,操 作寄存器,只有Load、Store操作内存指令数目指令数目一般大于200条一般小于100条通用寄存器数量通用寄存器数量较少多寻址方式寻址方式支持多种,一般大于4支持方式少,一般小于4实现方式实现方式微程序控制技术增加了通用寄存器;硬布线逻辑控制为主;适合采用 流水线控制方式控制方式主要为微程序控制主要为硬布线控制应用场景应用场景95%以上的PC和服务器市场95%以上的移动计算市场其他其他研制周期长优化编译,有效支持高级语言CPU指令集指令集:CISC与与RISC发展趋势与阵营对比发展趋势与阵营对比 CISC与与RISC从从上上世纪世纪后后期已
21、期已经经在逐在逐步步走向走向融融合,合,并并且该且该趋趋势持势持续续至今至今。例如2005年苹果通过引入 Rosetta将原先IBM的Power PC指令集转译为英特尔处理器接受的X86指令集。2020年苹果发布基于 ARM指令集的M1处理器后,将Rosetta更新为Rosetta2以便将原英特尔的X86指令集快速转译为M1的 ARM指令集。 整体来看,以高通骁龙整体来看,以高通骁龙,联发联发科科,三,三星星Exynos,苹苹果果A系列系列为为代表代表的的ARM架架构构RISC处处理理器占器占据据了移动了移动 处理器的市场。处理器的市场。而在个人电脑领域以Wintel联盟为基础的X86架构CI
22、SC处理器占据了该市场。MIPS,Power,Alpha等架构虽然已经不是市场的主流,但在特定领域内仍然在被使用。资料来源:eefocus,方正证券研究所整理CPU类型类型优势优势劣势劣势海外公司海外公司中国大陆公司中国大陆公司X86 高性能 个 人 计 算 机 市 场 产 业规模大 高功耗ARM 低 功 耗 、 低 费 用 、 小 体 积 、 高性能 定位精准, 聚焦移动 端市场 授 权 模 式 早 , 配 套 IP完善 早 期 芯 片 性 能 无 法 与 X86抗 衡X86与与ARM对比对比苹果苹果Rosetta2指令集转译指令集转译X86ARMCPU指令集的软件生态对比指令集的软件生态对
23、比 软件生态方面软件生态方面,X86运运行的行的主主要为要为DOS,非非ARM版版Windows,旧旧版版MacOS等等操操作系作系统统,起,起步步早,基早,基 于于Wintel联联盟盟,生生态态完完善善。全世界有65%以上的软件开发商都为X86提供生态服务。 ARM方面运行的主方面运行的主要要有安有安卓卓,iOS,iPadOS,Windows10移动移动版版,MacOS Big Sur等。等。原先适应 X86指令集的软件需要经过翻译后才可运行,如苹果的Rosetta2可以将X86指令转换为ARM指令,所以 运行速度会减慢。 ARM成本低,迭代成本低,迭代快快,其,其软软件生件生态态正在正在加
24、加速追速追赶赶X86的软的软件件生态生态。苹果应用商店软件数量从2008年7月 的5万个发展到2020年的342万个。同年Google Play商店有270万款可供下载的软件。资料来源:Statista,Statcounter,方正证券研究所整理苹果苹果APP商店应用软件数商店应用软件数量量X86与与ARM操作系统对比操作系统对比指令集指令集操作系统操作系统各操作系统占比各操作系统占比X86ARMCPU微架构定义微架构定义资料来源:维基,Extreme Tech,方正证券研究所整理微架构是微架构是(Micro Architecture)一一种给种给定定的指的指令令集架集架构构在处在处理理器中器
25、中执执行的行的方方法法。相同的指令集可以在 不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对CPU性能和效能提升发挥着至关重 要的作用。计算机体系计算机体系是是微架微架构构和指和指令令集的集的结结合。合。 众多的算数单元、逻辑众多的算数单元、逻辑单单元和元和寄寄存器存器文文件在件在三三态总态总线线和单和单向向总线总线,以及以及各各个控个控制制线的线的连连接下接下组组成成了了CPU的的 微架构。微架构。计算机的总线组织由CPU的复杂程度决定,二者常同向变化。CPU微架构中常见的单元有执行端口、缓冲单元、整数运算单元、矢量运算单元等。英特尔英特尔Core 2微架构微架构IBM Pow
26、er 8微架构微架构资料来源:ResearchGate,方正证券研究所整理CPU微架构工作流程概述微架构工作流程概述 CPU的每个核心有独占的每个核心有独占的的L1指令缓指令缓存存、 L1数据缓存数据缓存和和L2缓存缓存,多多数数核核心心共共享享L3 缓存。缓存。所有缓存中L1缓存通过虚拟地址空 间寻址,L2/L3通过线性地址空间寻址。 CPU非核心部分非核心部分主主要要是是System Agent( 系统系统代代理理):包含PCU(电源控制单元)、DMI控制器与ICH连接、QPI控制器与 其他CPU连接、内存控制器。 微架微架构构工工作作流流程概程概述述:以英特尔的Sandy Bridge(
27、右图)为例,CPU先使用取指令 单元(右图紫色部份),将代码段从内存 中取出;通过解码单元(右图橘色部份),将机器码按序转化为定长的uop(微操 作),发射到uop Decoder Queue(微 操作解密等候区);乱序单元(右图黄色 部份)从微操作解密等候区中取出微操作,根据执行条件,依赖关系,重新排序后,发送到Scheduler(调度器);调度器 将计算指令发送到计算单元(右图蓝色部 份),得到计算结果;将内存读写指令发 送给访存单元(右图绿色部份),完成内 存读写。英特尔英特尔 Sandy Bridge 处理器核心部份处理器核心部份资料来源:ResearchGate,Stackoverf
28、low,方正证券研究所整理CPU微架构:取指单元微架构:取指单元英特尔英特尔 Sandy Bridge 的编译过程的编译过程 英特尔英特尔 Sandy Bridge 的取指优化的取指优化 微架构通过执行指令“exec()“, 执行某个二进制数 时 , 该 二 进 制 数 首 先 被 kernel ( 核心) 从硬盘加载 到内存。 Instruction Fetch Unit ( 执行获执行获取取单单元元) 会按照会按照执行执行 顺序将顺序将bin的代的代码码段段,从内存从内存 中读入到中读入到CPU。当遇到分支 代 码 时 , 需 要 查 询 Branch Predictors(分支预测)。执
29、 行获取单元增加访问电路, 可以并发地访问内存、寄存 器,解决流水线气泡问题。 在Precoded(预解码)中解 码的X86指令集,会被保存到 Instruction Queue(指令等 候区),等待解码。 现在的现在的CPU均均使使用超标量用超标量的的 结构结构。例如Sandy Bridge是 16条。每个CPU cycle有16 个操作在并行执行,需要一 系列设计来保证流水线不被 中断。资料来源:ResearchGate,方正证券研究所整理CPU微架构:译指单元和乱序执行单微架构:译指单元和乱序执行单元元英特尔英特尔 Sandy Bridge 的译指单元的译指单元英特尔英特尔 Sandy
30、Bridge 的乱序执行单元的乱序执行单元Instruction Queue(执执行行等等候候区区) 中中取指取指单单元获元获得得的的x86 CISC指指令令,会会 通过通过译译指指单单元元翻翻译,译,以提高以提高CPU流水流水 的整体能的整体能力。力。一一个个周周期期有有4条条指指令令进进入入译译指指单单元元不同不同 的模块的模块,Complex Decode(复杂解 码器)翻译单指令多数据流指令,一 个周期最大可以产生4个uops(微操 作),Simple Decode(简单解码器)翻译普通指令,一个周期产生1个微 操作, 得到的微操作会保存到uop Decoder Queue(微操作解码
31、等候区)中。微架构的乱序执行会选择当前可执行微架构的乱序执行会选择当前可执行 的指令优先执行,减少处理器闲置。的指令优先执行,减少处理器闲置。译指单元每个周期发送4个微操作到乱 序 执 行 单 元 。 乱 序 执 行 单 元 使 用 Register Alias Table(虚拟寄存器到 物理寄存器的映射表)修改微指令, 把修改后的指令部分保存。Scheduler (调度器)会将整数操作 数和浮点操作数分别保存,把映射表 存入Reorder Buffer(重新编序缓存)。最后统一调度器选择有执行条件 的微操作发送给执行单元,没有执行 能力的微操作先缓存,待条件具备后 发送。资料来源:Resea
32、rchGate,方正证券研究所整理CPU微架构:计算单元和访存单微架构:计算单元和访存单元元英特尔英特尔 Sandy Bridge 的计算单元的计算单元英特尔英特尔 Sandy Bridge 的访存单元的访存单元乱序执行单元每个周期乱序执行单元每个周期发发送送4个个微微操作操作到到计算计算单单元。元。port0、port5可以执行整数、浮点数、整数SIMD(单指令多数据流)所有指令,port1只能执行整数、整数SIMD乘法、移位指令,每个周期最多执行3条指令。port2,port3,port4每个周期可以执行2个load(读取),1个store(存储)指令。Sandy Bridge在运算单元上
33、,通过AVX指令,大幅提升了浮点数以及SIMD的效率。Address Generation Unit(地址产生单元)产生读写内存的虚拟地址;Load Store Unit(存取单元)通过地址,实现读取、存储。存取单元包含存取单元包含Load buffer(读取缓冲)、读取缓冲)、Store buffer(存储缓冲)(存储缓冲)、prefetch(预预读逻读逻辑辑)、一)、一 致致性的逻辑。性的逻辑。存取单元读内存时,先要查询缓冲中的是否有缓存,如果命中,直接返回。当不命中时, 需要发起对内存的读取,由于读取内存大概需要200周期,代价很高,存取单元实现了预读逻辑。CPU核心是指控制和信息处理功
34、能的核心电路,把一个CPU核心和相关辅助电路封装在一个芯片中,即 为传统的单核心单核心CPU芯芯片片,简称单核CPU。把多个CPU核心和相关辅助电路封装在一个芯片中,为多核多核 心心CPU芯芯片片,简称多核CPU。下图即为ARM的单核心CPU和多核心CPU。图中红色虚线框标出的部分为CPU核心,分别为基于 ARMv7微架构的单核心CPU芯片以及ARM Cortex-A9 MPCore用2个和4个Cortex-A9构成的2核心和 4核心CPU芯片。 目前我们能见到目前我们能见到的的4核心核心CPU大多大多都都是属是属于于Cortex-A9系列系列。ARM Cortex-A9的应用案例有联发科 M
35、T6577、三星Exynos 4210、华为K3V2等,另外高通APQ8064、MSM8960、苹果A6、A6X等都可 以看作是在A9架构基础上的改良版本。单核单核CPU与多核与多核CPUArm单核单核CPUArm双核双核CPUArm四核四核CPU1个个CPU核核心心(Core)2个个CPU核心核心4个个CPU核心核心ARM单核心与多核心单核心与多核心CPU芯片芯片资料来源:半导体行业观察,方正证券研究所整理资料来源:维基,方正证券研究所整理“考古考古”CPU:CPU发展历程发展历程CPU发展史简单来说发展史简单来说就就是是Intel、IBM、ARM的发的发展展历史历史,CPU已经有四十多年的
36、发展历史。CPU的发展史,按照的发展史,按照其其处理处理信信息的息的字字长,长,可可以分以分为为:四:四位位微处微处理理器、器、八八位微位微处处理器理器、十六十六位位微处微处理理器器、 三十二位微处理器以及三十二位微处理器以及六六十四十四位位微处微处理理器等器等等等。英特尔在大部分时间处于领先地位CPU发展史发展史“史前时代史前时代”(1971年以前)年以前) 1904年电子管被发明年电子管被发明 1946年人类第一台计算机年人类第一台计算机“ENIAC” 1947年晶体管被发明年晶体管被发明英特尔英特尔(X86)IBM(Power PC)ARM(ARM)4位位CPU(1971-1972) I
37、ntel 4004 Intel 40408位位CPU(1972-1978) Intel 8008 Intel 8080 Intel 808516位位CPU(1978-1994) Intel 80386 Intel 8048632位位CPU(1985-2014) 奔腾 奔腾2 奔腾3 奔腾4 酷睿 Power 2 Power 3Cortex A5 Cortex A12Cortex A7 Cortex A15Cortex A8 Cortex A17 Cortex A964位位CPU(1998至今)至今) 奔腾4 酷睿2 酷睿i系列 Power 4 Power 5 Power 6 Power 7 P
38、ower 8 Power 9 Cortex A34 Cortex A55 Cortex A35 Cortex A75Cortex A53 Cortex A76 Cortex A57 Cortex A77 Cortex A72 Cortex A78 Cortex A73 Cortex X1CPU发展史:英特尔微架构回顾发展史:英特尔微架构回顾2004-2020英特英特尔尔CPU微架构进化微架构进化时间时间Sandy BridgeCoreHaswellSkylakeNehalemSunny CoveWillow CovePrescott20042006资料来源:维基,方正证券研究所整理200820
39、112013201520192020性能性能 末代奔末代奔腾腾4 微架构微架构 31级流水级流水 线线 超线程技超线程技术术 800MT/S前端总线前端总线 基于奔腾基于奔腾M架构架构 取消超线取消超线 程技术程技术 精简流水精简流水 线级数线级数 1333MT/S前端总线前端总线 初代初代Core i 超线程技术超线程技术 回归回归 TurboBoost 三级缓存三级缓存 QPI总线总线 第二代第二代Core i 集成核显集成核显 TurboBoost2.0 256位环位环 形总线形总线 第四代第四代Core i 1.5K微操作缓微操作缓存存 原生支持原生支持DDR 3内存内存 16条条PC
40、IE 3.0 第六代第六代Core i DDR4内存支内存支 持持 MPX技术技术 SGX技术技术 第十代第十代Core i 18% IPC提升提升 4K核显输核显输 出出 L2缓存翻缓存翻 倍倍 第第11代代Core i L2/L3缓缓 存加大存加大 全全RAM 加密加密 50%核核显升级显升级 随着随着2005年以年以Prescott为为内内核的核的奔奔腾腾4处处理理器在器在性性能和能和效效能上能上被被AMD的的K8速速龙龙超越超越,英特英特尔尔采取了采取了 “Tick-Tock”的的钟钟摆摆模模式式,“Tick”年年升升级级处处理理器器的的制制程程,“Tock”年年升升级级处处理理器器的
41、的微微架架构构。以两年为 周期的钟摆模式,从“Nehalem”开始让CPU交替发展,一方面避免了同时革新可能带来的失败风险, 同时持续的发展也可以降低研发的周期,并可以对市场造成持续的刺激,并最终提升产品的竞争力。2008-2015年的钟摆模式使年的钟摆模式使英英特尔特尔CPU年年均有均有15%左左右的右的提提升,升,维维护了护了英英特特尔尔X86领领域的域的霸霸主地主地位位,并,并 诞生了诸如诞生了诸如Skylake这样这样经经典的典的架架构,构,沿沿用至用至今今。CPU发展史:英特尔指令集回顾发展史:英特尔指令集回顾资料来源:Objectcomputing,Notebookcheck,方正
42、证券研究所整理过去过去23年,英特尔年,英特尔X86指令集中的单指令多数据流指令集可以划分为指令集中的单指令多数据流指令集可以划分为MMX、SSE、AVX三块。三块。英特尔的指令集采用叠加的方 式向前发展,从奔腾的MMX到Skylake的AVX512,指令集的位数从64位升级至了512位。单次指令的负载能力提升了8倍。MMX指令集是多媒体拓展、多数学拓展和矩阵数学拓展的简称。指令集是多媒体拓展、多数学拓展和矩阵数学拓展的简称。初代的MMX仅提供整数运算,而不兼容浮点运算,而且当 年MMX的软件支持进展缓慢。SSE是流式单指令多数据流的简称是流式单指令多数据流的简称,该指令集创建了新的128位宽
43、的寄存器文件(XMM0XMM7)和新的单指令多数据流指 令,解决了MMX的核心缺点(无法将整数SIMD操作与任何浮点操作混合使用)。AVX是高级矢量拓展指令集的简是高级矢量拓展指令集的简称称,该指令集使用16个YMM寄存器对多条数据执行单个指令。1997-2015英特尔英特尔CPU指令集进化指令集进化2020年年Tigerlake中的指令集中的指令集资料来源:英特尔,方正证券研究所整理CPU发展史:英特尔制程回顾发展史:英特尔制程回顾英特尔的创始人戈登英特尔的创始人戈登摩摩尔尔是摩是摩尔尔定律定律的的提出提出者者。摩尔定律的核心内容为:集成电路芯片上所集成的电路的数 目,每隔18个月就翻一番;
44、微处理器的性能每隔18个月提高一倍,而价格下降一半;用一美元所能买到的计 算机性能,每隔18个月翻两番。CPU的制程通常表示的制程通常表示晶晶体管体管或或栅极栅极长长度等度等特特征尺征尺寸寸。在门间距(CPP)和最小金属间距(MMP)都缩小30%的 情况下,晶体管的面积就能减小一半,那么就能放入2倍数量的晶体管,摩尔定律也随之成立。 在过去的在过去的40多多年年的的摩摩尔尔定定律律时时代代,英英特特尔尔通通过过将将CPU的的制制程程由由4004的的10微微米米提提升升至至了了Skylake的的14纳纳米米, 运用运用FinFET等先进技术,遵守等先进技术,遵守“钟钟摆战摆战略略”,在在CPU
45、Die中放入更多的晶体中放入更多的晶体管管,提,提升升处理处理器器性能。性能。1971-2015英特尔英特尔CPU的摩尔定律演化的摩尔定律演化英特尔英特尔Tick-Tock战略下战略下CPU的制程进化的制程进化资料来源:英特尔,pcbuildersclub,方正证券研究所整理CPU的发展趋势:微架构升级概的发展趋势:微架构升级概述述CPU微架构微架构的的提提升升往往往往伴伴随着随着指指令令集集的的更更新新与与优优化化。微架构的提升可以分为两部分的改进,一个是通用性能的提 升,往往称其为IPC(Instruction Per Clock,即CPU每一时钟周期内所执行指令的多少);另一个是专用性能
46、的 提升,往往需要优化代码,进行改写和重新编译才能获得收益。CPU的通用的通用计计算算性性能能是是由由IPC、主主频频、指指令令数数三三者者共共同决同决定定。IPC的提升是CPU通用性能提升的必要条件。主频的提升通常由CPU制程的进步产生。微架构通用性微架构通用性能能的的提提升升的的宏宏观思观思路路是是“更更宽宽,更更深深,更智更智能能”。“更深”:为平行计算找出更大的机会;“更宽 ”:在平行计算中执行更多的操作;“更智能”:用更新和更好的算法来减少延迟。IPC的提升就发生在处理器的 前端(取指译码)、缓冲区(调度和暂存乱序执行下的微操作)和后端(执行指令、获取操作数、记录结果)。IceLak
47、e处理处理器器的的SunnyCove微架微架构构是是英英特特尔尔2015年年以以来来首首次使次使用用的的全全新新微微架架构构,它它的的IPC相相较较于于上上代代Skylake提提升升了了18%。CPU的通用性能计算公式的通用性能计算公式SunnyCove相较于相较于Skylake的的IPC提升提升资料来源:英特尔, pcbuildersclub,方正证券研究所整理CPU微架构的通用性能发展:更深、更宽、更智微架构的通用性能发展:更深、更宽、更智能能Sunny Cove的概述和的概述和“更智能更智能”升级升级Sunny Cove的的“更深更深”升级升级Sunny Cove的的“更宽更宽”升级升级
48、微微架构架构的的“更更深深”方方面面:SunnyCove相较 于Skylake在乱序重排缓冲区、下载缓冲区、存储缓冲区、保留站、一级数据缓存、二 级缓存、微指令缓存、二级转译后备缓冲区 缓存等关键结构进行了扩充。微微架构架构的的“更更智智能能”方面方面:SunnyCove相 较于Skylake提高了分支预测的准确性、减 小了有效读取的延迟、以客户使用为导向。微微架构架构的的“更更宽宽”方方面面:SunnyCove相较 于Skylake在宽分配、执行端口、一级存储 位宽、每个执行端口的处理能力( 例如 SIMD shuffle,LEA)都得到了提升。资料来源:英特尔,Jaist,方正证券研究所整
49、理CPU微架构的专用性能提升微架构的专用性能提升 CPU微架构专用性能的提升通常涉及新的指令集(二者不可完全割裂),需要优化代码,进行改写和微架构专用性能的提升通常涉及新的指令集(二者不可完全割裂),需要优化代码,进行改写和重新编译才能获得收重新编译才能获得收益益,往往是一些专用计算单元或SIMD指令和执行单元的改进。 SIMD(单指令多数据流)是代码现代化中的重要组成部(单指令多数据流)是代码现代化中的重要组成部分分矢量化的标志性指令矢量化的标志性指令,SunnyCove微架 构继承并改进了Skylake的半吞吐的AVX512处理器,SIMD的支持从256位的AVX2 FMA来到512位 的
50、AVX512 FMA。 同时同时,SunnyCove后端新增的后端新增的Shuffle(洗牌)单元可以快速地洗牌矢量寄存器中的数(洗牌)单元可以快速地洗牌矢量寄存器中的数据据,为下一次 的矢量运算做好准备,有效减小延迟。Sunny Cove的的Skylake的微架构的矢量单元对比的微架构的矢量单元对比SunnyCove洗牌单元的洗牌指令洗牌单元的洗牌指令X3X2X1X0Y3Y2Y1Y0Y3Y0Y3Y0X3X0X3X0资料来源:Wikichip,Techpowerup,方正证券研究所整理CPU指令集的发展趋势:更多、更指令集的发展趋势:更多、更全全指令集升级的指令集升级的“更多更多”:指令集总数