Top
首页 > 正文

重磅押注CIPU,阿里云要定义下一代云

今年的阿里云峰会又释放出了一个重磅炸弹。6月13日,阿里云正式对外发布自主研发的云基础设施处理器(CIPU)。官方消息称,CIPU将向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。多位专家认为,CIPU的登场将彻底颠覆传统以中央处理器(CPU)为核心的计算架构,成为定义下一代云的关键。
发布时间:2022-06-20 13:17        来源:电子信息产业网        作者:宋婧

今年的阿里云峰会又释放出了一个重磅炸弹。6月13日,阿里云正式对外发布自主研发的云基础设施处理器(CIPU)。官方消息称,CIPU将向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。多位专家认为,CIPU的登场将彻底颠覆传统以中央处理器(CPU)为核心的计算架构,成为定义下一代云的关键。

CIPU究竟是什么?

如果不是圈内人,或许会被CPU、DPU、IPU、CIPU这些“长相相似”的专业术语搞得晕头转向。CPU指中央处理器,是计算机系统的运算和控制核心,相当于人的“大脑”。在没有云计算以前,数据中心的规模通常不会太大,CPU能够满足基本的算力需求。但进入云时代以后,超大规模数据中心涌现,需要管理的服务器太多,会消耗CPU大量的算力,且CPU与虚拟化系统以及网络之间的配合度没那么高,传统计算架构也就不再适用了。

DPU是适用于数据中心的处理器,虽然能够满足大规模计算与管理需求,但它纯属硬件范畴,没有软件的配合,侧重解决的是数据迁移带宽的问题,无法针对特定系统进行优化。相较之下,IPU同样适用于数据中心,但它更强调虚拟化、云化能力,主要是通过网络虚拟化、存储虚拟化、网络存储管理以及安全等功能来加速网络基础设施、提升应用程序性能。

而此次阿里云推出的CIPU是为新型云数据中心量身定制的专用处理器,能与飞天云操作系统结合实现软硬一体化,通过硬件提供高性能,通过软件保障灵活性,在加速和管理计算资源方面更胜一筹。它更像是DPU和IPU的综合体,既能解决数据迁移带宽的问题,又能云化、虚拟化管控数据中心。

阿里云自研的飞天云操作系统把分布在全球的上百万台服务器变成一台超级计算机,单集群可达10万台规模、千亿级文件数、EB级存储空间。而CIPU的职责就是协助飞天云操作系统对这上百万台服务器进行统一纳管和整体编排、调度。

“数据中心的计算、存储和网络一旦接入CIPU,资源即可被高效地云化管理,通过CIPU的硬件加速,将实现超高的性能。”阿里云智能总裁张建锋说道。具体来看,CIPU与网络结合,可对高带宽物理网络进行硬件加速,建设大规模的弹性RDMA(远程直接数据存取)分布式高性能网络(时延最低可达5微秒);CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘(每秒读写次数最高可达300万,长尾时延降低50%);CIPU与计算结合,快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。

张建锋表示,被CIPU云化的算力资源,通过飞天操作系统实现规模化、灵活高效的管理和调度,用户既能享受到跟物理机一样的性能,又能拥有远超物理机的敏捷性,还能享受到云计算的弹性。

实际上,这种以CIPU为核心的计算架构在阿里云内部系统中已打磨多年,在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能。阿里云智能云架构总监黄瑞瑞透露,CIPU已经承受过像“双11”这种体量的性能与压力“测试”。同时阿里云用户或多或少都使用过基于CIPU的云计算服务,只是由于不需要修改任何代码,他们对底层硬件的变化往往是无感的,只会感觉到云上算力资源跑得更快,服务更稳定,性价比也更高了。

阿里云在下一盘“大棋”

“今年我们最重要的策略是B2B,就是Back to Basic,回到云计算的本质。云计算的核心竞争力是技术,坚持在技术的长征路上,不断取得新的突破。”张建锋的一席话隐隐点明了阿里云做CIPU的初心——做深基础,夯实底座。

追溯云计算本源,虚拟化是其最底层的核心技术之一。如果把云计算看作一个双层蛋糕,下面一层是无数台物理机,上面一层则是用虚拟化技术变出来的无数虚拟机。不过,这种虚拟化会让计算性能受到损耗。换句话说,经过虚拟化技术提供的计算力是“打折”了的,而且越是密集计算的场景,虚拟化带来的损耗问题越明显,无数企业因此被挡在云计算的大门之外。

CIPU的出现从根本上解决了虚拟损耗问题。阿里云自研云操作系统——飞天包含三层架构:最上面一层是飞天原生级服务,包括云原生应用、数据计算与管理、AI与机器学习等;中间一层是飞天系统级服务,包括弹性计算产品、云存储产品、云网络产品、云安全产品等;最下面一层是飞天的内核,包括神龙计算、盘古存储、洛神网络及安全四大内核。CIPU与飞天的四大内核进行了深度适配,让飞天云操作系统得以向下延伸定义硬件,将算力的虚拟化损耗直接降为0。CIPU和飞天双剑合璧,发挥出了“1+1>2”的效果。

一方面,CIPU与飞天云操作系统的结合,可以说彻底颠覆了数据中心原本的底层计算与控制逻辑。阿里云技术产品负责人蒋江伟指出,CIPU要控制的是数以百万计的节点的存储资源、网络资源,这是单一CPU做不到的。另一方面,它还将对传统计算机终端形态、软件应用和开发界面产生深远影响。比如,基于新架构,阿里云的无影(云桌面)将云网端之间的计算存储资源再均衡,把高算力的工作从本地向云转移,让用户能够更灵活、更强劲、更安全地定义自己的终端。

据了解,阿里云在全球27个国家和地区、84个可用区、2800个网络节点,运营着上百万台服务器。如此大规模的基础设施在“飞天云操作系统+CIPU”的稳定支持下,服务器非预期宕机率低于万分之一,足以代表目前业界的领先水平。

“阿里云推出CIPU是国内专用芯片发展的一个里程碑事件,”北京计算机学会数字经济专委会秘书长王娟指出,“通用芯片与专用芯片是交替出现的,分别满足数据处理中的不同场景需求。不同于更注重产品通用性的传统处理器厂商,阿里云推出的CIPU为新型数据中心业务而生,它将基础设施构建在专门的处理器上,对未来大型云网一体的新型基础设施建设具有重大意义。”

下一代云,如何定义?

过去十多年,云计算技术发展经历了两个阶段:第一阶段是分布式技术,推动互联网企业从大型机向分布式系统迁移;第二阶段诞生了资源池化技术,通过计算存储分离的架构,对资源进行统一的调度编排,提高云计算的可靠性和可用性。

这两个阶段都是基于传统的、以CPU为中心的计算体系架构,只能满足部分计算需求。随着数据密集型计算越来越多,云计算面临着计算和网络传输的时延大、难以满足数据中心内部交互流量剧增带来的高带宽需求、超大规模基础设施难管理等诸多挑战,迫切需要一种全新的计算架构。

在张建锋看来,云计算最重要的特点是用软件来重新定义,极大地提升了整个云资源利用的敏捷性,但软件定义必然会带来一些性能上的损失。“下一代云”不仅要满足大规模计算与管理要求,还需满足软件定义的灵活性要求,同时还得保持硬件设备的原生性能。

阿里云推出的这种以“飞天+CIPU”为中心的体系架构,把云计算的操作系统和硬件体系结构做到了完美的融合,在低延时、高性能的基础上实现了算力的规模化。这是对数据中心内部体系结构的一次颠覆性变革,同时也为整个云计算产业的未来发展方向提供了全新的思路。

发生在底层的创新往往是最具颠覆性的。自研芯片的创新将会成为云厂商改变云计算游戏规则的重要能力。中国工程院院士郑纬民认为:“过去这些年,在云计算领域我国主要在软件层面有所创新,发展了一些开源生态,但整体还是在传统IT的格局下追赶。现在,阿里云提出的CIPU完全打破上一代计算架构,在基础技术上实现了世界领先。”

“云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国云计算就有了超车的机会。”张建锋如是说道。

 

专题访谈

合作站点
stat