懂得做网站还可以做什么兼职,建设工程司法解释(二),深圳高端女装品牌排行榜,网站更换程序文章目录
前言
背景介绍
指令集架构
ARM起源
ARM分类
Cortex-M4
内核框架
指令流水线
实践应用
总结
参考资料 前言 见《【研发日记】嵌入式处理器技能解锁(一)——多任务异步执行调度的三种方法》 见《【研发日记】嵌入式处理器技能解锁(二)——TI C2000 DSP的SCI(…
文章目录
前言
背景介绍
指令集架构
ARM起源
ARM分类
Cortex-M4
内核框架
指令流水线
实践应用
总结
参考资料 前言 见《【研发日记】嵌入式处理器技能解锁(一)——多任务异步执行调度的三种方法》 见《【研发日记】嵌入式处理器技能解锁(二)——TI C2000 DSP的SCI(串口)通信》 见《【研发日记】嵌入式处理器技能解锁(三)——TI C2000 DSP的C28x内核》 见《【研发日记】嵌入式处理器技能解锁(四)——TI C2000 DSP的Memory》 见《【研发日记】嵌入式处理器技能解锁(五)——TI C2000 DSP的中断系统》 背景介绍 ARM内核最典型的应用就是STM32也是ARM内核出货量最大应用最广泛的一个地方如下图所示 指令集架构 理论上指令集分为复杂指令集(Complex Instruction Set ComputerCISC)和精简指令集(Reduced Instruction Set ComputerRISC)。CISC出现的较早典型的代表是x86架构。CISC里边的每个指令通常包含多个操作指令长度在几字节到十几字节不等这些操作可以在单个指令中完成这样就可以通过一条指令完成复杂的操作减少了内存访问次数实现更高的代码执行效率同时也提高了代码密度减少了软件开发人员编写代码的时间和工作量。随着技术的发展指令数量越来越多CISC处理器的设计和优化变得越来越困难并且大部分的指令的使用频率非常低导致了硬件资源的浪费。所以就出现了RISC慢慢更加流行起来。RISC的特点是每个指令只执行一个操作指令长度在2字节或4字节指令数量精简掉很多提高了处理器的可靠性。软件开发人员组合使用这些指令也可以实现复杂的功能同时也更容易对复杂操作进行设计和优化。 下面以伪汇编指令举例说明一个简单加法运算地址[0001]的数据和地址[0002]的数据相加结果存到地址[0003]里。 ACC形式的伪汇编指令如下
LOAD ACC [0001] //地址[0001]的数据加载到累加器ACCADD ACC [0002] ACC //ACC加地址[0002]的数据结果存到ACCSTOR ACC [0003] //ACC的数据存到地址[0003] LOAD_ STORE形式的伪汇编指令如下
LOAD R1 [0001] //地址[0001]的数据加载到R1寄存器LOAD R2 [0002] //地址[0002]的数据加载到R2寄存器ADD R3 R1 R2 //R1R2结果存到R3寄存器STORE R3 [0003] //R3寄存器的数据存到地址[0003] ACC形式的微控制器只有一个ACC累加器ACC可以认为是一个寄存器数据可以直接从RAM到ACC进行累加但是运算结果需要还存回RAM里ACC才能放入新数据。运算速度的瓶颈卡在ACC寄存器数量太少。 LOAD_ STORE形式的微控制器没有ACC而是增加了多个内部运算寄存器R1、R2、R3、…、R12等等多形参函数不用反复的压栈和出栈降低了内核和外部数据的耦合程度同时也增加了调度难度。运算速度的瓶颈卡在LOAD环节太多。 总的来讲CISC和RISC各有优缺点现代计算机处理器通常采用混合指令集。现实中的嵌入式系统芯片大多是以RISC为主体有利于平台化通用化少量补充一些专用CISC有利于专项性能极致发挥所以很难把一个厂商的处理器明确地划分为CISC或者RISC。当前影响比较大的两类是ARM(Advanced RISC Machines)和RISC-V(Reduced Instruction Set Computer -Five)。 ARM是一种基于RISC架构的处理器架构采用了Thumb简化指令集和Thumb-2扩展指令集。Thumb简化指令集是一种基于RISC的指令集指令长度为16位比原本的32位指令集要短占用空间更小能够在存储和传输数据时提高效率。Thumb-2扩展指令集则是在Thumb简化指令集的基础上扩展而来的指令长度包括16位和32位两种支持更多的指令和操作满足不同领域应用的需求。除了RISC之外ARM还采用了一些特殊的技术如流水线、分支预测等以提高指令的执行速度和效率。ARM的部分指令集如下图所示 RISC-V是基于RISC的一个开放免费的指令集架构具有灵活、可扩展定制、跨平台、广泛适用等特点。RISC-V指令集设计的目标是提供一种通用的指令集架构适用于各种计算机系统和嵌人式系统包括高性能服务器、个人计算机、移动设备、物联网、机器人、汽车电子等领域。RISC-V包括基本指令集(RV32I、RV64I)和标准扩展指令集(RV32G、RV64G)以及可选的专用扩展指令集如浮点指令集(RV32F、RV32D、RV64F、RV64D)向量指令集(RV32V、RV64V)等开发者可以根据实际需求选择合适的指令集。RISC-V的特性点决定了其在未来计算机系统和嵌人式系统发展趋势中的重要地位是我国芯片领域自主创新的一个重要方向以华为麒麟710、北京兆易GD32V系列为代表的国产RISC-V芯片已经开始广泛用于各种领域。 Tips1MIPSMicroprocessor without Interlocked Pipeline Stages也是采取RISC的一种指令集架构。 Tips2TI C2000 DSP的C28x内核官方宣称是RISC实际上也包含了CISC。 ARM起源 1978年物理学家Hermann Hauser和工程师Chris Curry在英国剑桥创办了CPU(Cambridge Processing Unit)公司主要业务是为当地市场供应电子设备。后来公司改名为ACG(Acorn Computer Group)公司。 1983年ACG公司开始研发一种新的处理器架构命名为ARM(Advanced RISC Machine)。两年时间就开始被应用在自家的新一代计算机Archimedes上。 1990年ACG公司正式改名为ARM计算机公司吸引了很多大公司的投资。苹果公司、芯片厂商VLSI公司加上ACG本身的资金和知识产权一起人股做了一家这样的ARM计算机公司。起初由于业务不景气ARM公司被迫放弃自己制造芯片把芯片的设计方案授权给其他公司来生产。正是因为这个因祸得福的模式使ARM的芯片遍地开花。这个迫于无奈的决定在今天看来意义非常深远奠定了ARM公司长久以来的发展模式。 近年来ARM 继续推出了一系列高性能、低功耗的处理器如Cortex-A76、Cortex-A77和Cortex-A78等被广泛地应用于智能手机、物联网和自动驾驶等领域。同时ARM还在人工智能、机器学习等领域不断进行探索。 现在的ARM公司是全球嵌人式处理器领域的领导者在嵌入式领域有着巨大的影响。ARM公司基本不生产处理器芯片而是专注于设计处理器内核和架构然后再授权给其他芯片厂商赚取首次的授权费和后续销售每颗处理器芯片的知识产权费。ARM合作商遍布全球根据ARM公司发布的数据其处理器架构在全球处理器市场份额已经超过50%特别是在智能手机和平板电脑等领域几乎是市场的独霸者。由于ARM刚好赶上了移动设备爆发式发展的时代最终造就了它的辉煌。 未来虽然ARM公司宣称其基本统一了全球的智能手机领域但在手机领域里并不轻松有被边缘化的可能性。手机行业的客户非常强大又强势且客户的研发实力更强也不想受制于人都开始着手做自己的微架构国内的手机公司也准备抛弃ARM公司的微架构。苹果、高通等手机芯片厂家并不采用ARM公司的微架构仅购买其指令集所以不同手机处理器厂家有不同的处理速度、扩展硬件和扩展指令。 TipsARM起初是一家英国公司2016年被日本软银集团收购了到了2020年美国NVIDIA英伟达想再次收购ARM因垄断调查没有成功。 ARM分类 ARM处理器产品分为传统经典系列和较新的Cortex处理器系列并且根据应用范围的不同又分为应用处理器、实时处理器、微控制处理器三种类别。如下图所示 Cortex-A系列这是一种ARMv7、ARMv8(64位)或ARMv9(64位)版本的应用处理器架构采用了超标量流水线设计能够实现更高的性能和效率。适用于高性能的移动设备、智能电视、网络设备、云计算和服务器等场景。 Cortex-R系列这是一种针对实时系统的ARM架构增加了一些安全机制具有强实时性和高可靠性支持容错和纠错机制。适用于汽车、工业自动化、航空航天和医疗设备等领域中的专项应用相比A系列和M系列它的市场应用窄很多。 Cortex-M系列这是一种专门为嵌入式系统和微控制器设计的ARM架构具有低功耗、低成本和微实时性等特点可以实现小型、低功耗的嵌入式系统设计。适用于智能家居、物联网、汽车、工业自动化、航空航天和医疗设备等领域的广泛应用。Cortex-M系列逐渐有覆盖R系列和A系列部分特性的发展趋势其子系列非常丰富包括 1、低速度和低功耗定点系列MO、M0 2、中端定点系列M3 3、中端含有DSP功能的可选浮点系列M4 4、高端含有DSP功能的浮点系列M7 5、加人安全机制系列M23、M33、M35P。 Tips这里缺少了M1系列因为M1系列只适用于运行在FPGA上不是通用的微控制器内核。 Cortex-M4 ST意法半导体由意大利和法国的两家半导体公司合并而成。ST公司以STM32为前缀的32位微处理器就是采用ARM的内核。其中最为人熟知最主流也是性价比最高的就是入门级别的STM32 F1系列和中端级别STM32 F3系列。F1系列与F3系列最主要的不同之处就是Cortex-M4比Cortex-M3多了浮点处理单元和DSP单元如下图所示 DSP(Digital Signal Process)特性 Single-cycle 16/32-bit MAC(Combined Multiply and Accumulate); Single-cycle dual 16-bit MAC; 8/16-bit SIMD(Single Instruction, Multiple Data) arithmetic; Hardware support for conversion, addition, subtraction, multiplication with optional accumulate, division(2-12 cycles), and square root; FPU(Floating-Point Unit)特性 Optional single precision floating point unit; IEEE 754 compliant; 内核框架 Cortex-M4的内核框架如下图所示 指令流水线 Cortex-M4采用3级Pipeline流水线如下图所示 实践应用 点赞过100下一篇文章继续 总结
一个处理器要向更高性能升级常用的主要途径是 1、采用更先进的nm制程工艺水平 2、降低内核电压从而降低功耗获得更快的工作频率 3、增加多级流水线 4、多核但也带来代码复杂性的急剧上升 5、增加更宽的位数从而一次性处理多个数据,即单指令多数据流(SIMD) 6、添加新的独立硬件单元并添加新指令。与此同时仍要保持系统的向下兼容性保留原先大多数的旧指令。 随着指令的增加要保持系统仍是精简指令集是一件困难的事情。有程序员感叹这个世界到底有没有指令很少的精简指令集系统?虽然多数书籍时髦的人云亦云地说RISC架构的指令更少实际上不断增长的ARM指令非常多绝对不比CISC指令少。 以上就是本人在研发中使用ARM Cortex-M4处理器时一些个人理解和分析的总结主要介绍了ARM的起源和发展展示了ARM Cortex-M4内核的工作原理并分析了它的特点和应用场景。 后续还会分享另外几个最近解锁的嵌入式处理器新技能欢迎评论区留言、点赞、收藏和关注这些鼓励和支持都将成文本人持续分享的动力。 另外上述例程使用的Demo工程可以到笔者的主页查找和下载。 参考资料 Arm-Cortex-M4-Processor-Datasheet.pdf 版权声明原创文章转载和引用请注明出处和链接侵权必究