Intel三代可扩展至强哪里强?唯一如此聪明
对于服务器数据中心市场,一般人关注不多,但因为市场和应用的需求,这里往往是最新计算技术的前沿阵地,了解它就能一窥未来发展趋势,而在这块庞大的市场上,Intel无疑是霸主一般的存在,也是行业发展的风向标。
不久前,Intel发布了代号Cooper Lake的第三代至强可扩展处理器,其变化可能没有很多人期待的那么高,也存在一些误解,这里就再和大家说道说道。
首先需要强调的一点就是,大家往往习惯性地把Intel定义为一家处理器企业,但其实很久以来,处理器只是Intel庞大产品和技术家族的一部分,可以说是最核心的存在,但绝不是唯一的,也不能完全展现Intel的实力和愿景。
一方面,Intel早就提出了制程工艺、架构、内存存储、互连、安全、软件这六大技术支柱;另一方面,Intel面向数据中心提供的更不仅仅是CPU处理器或者SSD固态盘,还有以太网、硅光、傲腾内存、SSD、凌动、FPGA等等,组成了一个有机的整体,而这种完整的产品线组合,在业内也是首屈一指的。
回到至强,这一品牌诞生已有20多年历史,早已成为数据中心计算力的代名词,而在2017年,Intel打造了至强可扩展的概念,最新发布的Cooper Lake就是第三代产品的一部分,面向四路和八路市场,下半年还会有同样隶属于第三代的Ice Lake,针对单路和双路市场,并首发支持PCIe 4.0。
明年则有第四代Sapphire Rapids,支持更新的PCIe技术。
Cooper Lake三代至强可扩展处理器是业界唯一集成AI加速的处理器,专为当今内置AI人工智能的数据密集型服务而设计,重点进一步升级了DL Boost深度学习加速技术,同时深度学习加速架构下的VNNI神经网络指令支持创新的bfloat16数据格式。
DL Boost、bfloat16相结合,新平台相比上一代在做图像分类处理的时候,计算性能可以提高1.93倍,这是一个非常显著的进步。
同时,针对云计算应用、企业应用等多样性场景,Cooper Lake还支持第二代Speed Select技术,方便用户灵活配置系统,满足业务需求。
如下是Cooper Lake的四路系统架构图,四颗处理器通过UPI总线和全连接拓扑结构进行互连,而且通道数比上代翻了一番,每颗处理器都支持六路QPI,这样和其他三颗处理器的任意一颗都是双路互连,带宽更充裕,有利于支持更多的CPU核心、更大的内存、更高的计算速度。
内存方面支持6个通道,四路平台就是24个,八路则可达48个,而且频率也有3200MHz,容量方面则支持16GB颗粒,单条可以做到RDIMM 64GB、LPRDIMM 256GB,再搭配傲腾持久内存的话每路系统最大内存容量就高达4.5TB,四路就是18TB,八路则是36TB。
芯片组搭配升级的C620-A,支持更多USB、SATA、PCIe扩展,并集成ME平台管理技术,支持丰富的RAS,处理器、内存、PCIe设备等的错误都可以及时隔离、诊断。
人工智能方面,一代可扩展至强支持AVX-512指令集,要经过与FP32浮点数据格式的深度学习,二代支持DL Boost、VNNI矢量神经网络指令集,支持INT8整数数据格式,而第三代升级到了bfloat16数据格式,大大提升了AI训练和推理能力。
FP32、INT8、bfloat16有什么区别呢?
INT8是每个数据使用8比特保存,包括1个符号位、7个尾数,就像图中比较模糊的小猫照片,细节缺失,但是对AI训练和推理而言计算效率非常高,当然精度游明显损失。
FP32包含1个符号位、8个指数、23个尾数,就像异常清晰的小猫照片,AI训练和推理精度非常高,但是效率低,速度慢。
bfloat16则是折中选择,总共16个比特,包括1个符号位、8个指数(取值范围2的256次方)、7个尾数(取值范围2的128次方),对于绝大多数AI模型可以兼顾精度和速度,就像略有压缩的小猫照片,人眼基本看不出细节丢失。
根据实测,VNNI搭配bfloat16相比上代FP32训练性能提高了93%,推理性能则提高了90%。
三代可扩展至强还有一个很重要但很容易被忽视的技术,那就是SpeedSelect(SST),在上代基础上大大拓展,包含SST-PP、SST-CP、SST-BF、SST-TF四种功能模式。
其中,SST-PP(Performance Profile)是指CPU的供电和散热的边界条件确定后,可以根据业务不同需求,选择允许使用多少个CPU核心,并设置对应的频率,而在其他场景下可以开关不同的核心、设置不同的频率。
比如一款20核心、TDP 150W的处理器,可以设置开启全部20个核心,频率跑在2.5GHz,适合对多线程敏感但不需要特别高频率的场景,而如果需要更高单线程性能了,则可以开启14个核心,频率提高到2.9GHz。
SST-BF(Base Frequency)、SST-TF(Turbo Frequency)可以设置不同的核心运行在不同的频率,比如高优先级的业务使用部分核心运行在睿频加速频率上,而低优先级的业务则只跑基础频率,在不超过整体供电和散热的情况下,可以让部分核心的温度更低。
SST-CP(Core Power)是在CPU负载非常高、接近供电和散热极限时,CPU会做一定的降频,来保护CPU和整个服务器平台。以往这种降频保护都是暴力地对所有核心无区别一起降频,选择则可以优先选择让执行低优先级任务的核心降频,保证高优先级业务不受影响。
这四种SST技术结合,一台服务器就可以更好地完成更多的工作。
除了CPU处理器,Intel还有这从软件到硬件的完整产品系列,硬件上有CPU、GPU、FPGA、AI芯片等各种处理器,其中AI芯片包括Movidius视觉处理器、Habana深度学习训练和推理芯片,还有固态硬盘、傲腾持久内存,而软件解决方案则有One Intel、OpenVINO、精选解决方案等等,可以给客户一个非常完整的产品组合。
总的来说,人工智能和数据分析将是数据中心未来10年的主要工作负载,而第三代至强可扩展处理器就是为了这两类应用重点优化,支持四路、八路服务器平台,植入对人工智能的优化,支持bfloat16数据格式,为用户提供最大的价值。