由软到硬:阿里的算力启示录

算力攻坚路,并没有尽头

撰文 | 王   潘  

编辑 | 吴先之

计算,是一门古老又复杂的学问。

从数百年前的天文学家用纸笔推演着行星轨道,到世界上第一台通用计算机“ENIAC”,再到后来的小型机、移动终端,直至当下的云计算,计算的载体正在不断地演替。

如果将加速信息化时代的“ENIAC”,视为计算进化的关键节点,那么在数字经济的叙事语境之下,属于算力的时代已然到来——算力,就是未来的生产力。

11月3日,在2022云栖大会现场,阿里巴巴宣布自研CPU倚天710已大规模应用,而倚天710,也由此成为了中国首个云上大规模应用的自研CPU。

由软到硬:阿里的算力启示录

据悉,倚天710云实例目前已与阿里云的飞天操作系统及CIPU融合,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升超30%,单位算力功耗降低60%。

一直以来,计算的生命在于应用,而云计算作为全新计算体系,既是其天然的规模化落地场景,亦是高性能芯片最优应用场景之一。

而自研CPU大规模部署应用,对阿里这家以电商起家的科技公司来说,可谓其十多年算力攻坚路上的历史性时刻。

第一部分:起点

阿里算力的起点,源于互联网红利爆发前夜,业务规模激增与陈旧的算力基础的割裂。

时间回到2008年,阿里巴巴正值业务高速发展期:淘宝上线淘宝商城(天猫前身),跨入B2C赛道;淘宝自身也已打响了名号,用户体量急剧增长。

然而,业务激增不全然是好事。彼时,小型机是企业算力最重要的组成,企业若要获取算力,要么线下自建服务器,要么租用外部服务器。

且不谈自建服务器带来的成本压力,以及硬盘故障、服务器死机、交换机重启等司空见惯的硬件问题,单论这类集中式计算所能提供的算力,其实远远跟不上互联网业务规模的增长。

以当时的阿里为例,在购物高峰期,每天数百万用户同时涌入站点,无时不刻考验着捉襟见肘的IOE技术架构。“每天早上八点到九点半之间,阿里服务器的使用率都会飙升到 98%,离爆棚就差两个百分点。”《阿里云的这群疯子》如是写道。

一旦难以承压,小则延迟、卡顿,大则服务器宕机、瘫痪,对用户心智的伤害逐层递增,这在那个电商血战的年代,无疑是灾难性的弱点。换言之,想要接轨更广阔的市场,提升算力是基础。

只是,当时的中国并没有算力系统,对国内互联网企业而言,增加算力几乎只有扩大采购规模一条路。可阿里偏偏选择了一条人迹罕至的路——用云计算来为庞大复杂的业务搭建一套全新的技术架构。

此举无疑是一步险棋。正如科幻经典《2001太空漫游》中克拉克第三定律所描述那般:“任何非常先进的技术,初看都与魔法无异”。

彼时,云计算在国内并无成功的先例,亦不被外界普遍认可,更不必说云计算业务需要巨额的研发投入,一旦失败,甚至还将拖累公司财务情况。但纵使如此,在一把手的推动下,阿里还是毅然决然地跳入了云计算的河流。

2009年,阿里巴巴启动飞天云操作系统的研发,并成立阿里云,中国企业自研云计算的故事由此开始书写。

“飞天”的内核,是用分布式架构替换传统集中式架构,连接遍布全世界的服务器,进而实现算力自由。只不过,文字所记录下的寥寥几笔,在技术领域却如同一道沟壑。

一位业内人士告诉光子星球,分布式系统的复杂程度远高于传统业务系统,一旦接入的服务器数量升至一定数量,系统性能、稳定性和运维等方面的技术挑战便将呈指数级上升趋势。

为此,阿里云研发团队开始了旷日持久的算法攻坚路。2013年5月,阿里云成为了全球首个实现单一集群5000台服务器规模的云厂商,数月后,规模翻了一番,突破单集群10000台的规模。至此,阿里云早期的算力底座正式落成,传统线下租用算力的模式逐渐被在线获取算力所取代。

尽管在现在看来,这不过是阿里云发展过程中的短暂节点,但只有熟悉、经历过这段往事的人, 才知悉研发过程中的磕磕绊绊,以及每日每夜的枯燥与痛苦。直至今日,阿里云栖小镇仍伫立着一尊雕像,雕像上只有两个字“5K”。

然而,技术永远是朝前发展的,这也就意味着,留给当时的“攻坚人”举杯的时间并不多——随着云计算被越来越多企业所接纳,与日俱增的云计算需求时刻敲打着刚缓过劲来的云计算厂商们。

一个简单的例子,在当时,虚拟化导致的性能耗损几乎是行业的铁律,无论云厂商们如何针对性优化,也始终无法全然发挥硬件性能——眼看算力白白流失,却束手无策。面对这一困扰行业十余年的桎梏,阿里云跳出了思维惯性,选择打造一个专用硬件来负责芯片不擅长的虚拟化调度工作。

此番尝试,在当时看来极为“激进”,尤其是软硬结合的思路,更是与外界对互联网公司“只擅长软件研发”的刻板印象相冲突。

由软到硬:阿里的算力启示录

殊不知,看似激进的尝试转化为了极为踏实的成果——神龙架构:基于软硬结合的设计方式,其兼具虚拟机弹性和物理机高性能。至此,算力流失的裂隙被彻底封堵,让云计算进入了性能0损耗的时代。

只是,漫长的算力攻坚路途,只有喘息,并没有终点。

尤其是在数字经济时代,算力已然成为行业水电煤一样的公共资源,而云计算产业去IOE浪潮后沿用下来的硬件体系,同样处于新一轮变革的节点。而阿里的技术路径,决定了这家公司必须去往算力系统更硬核处——芯片。

第二部分:攻坚

对云计算厂商而言,芯片作为服务器、数据中心的“拼图”,重要性不言而喻。

一直以来,云计算厂商搭建数据中心所需服务器芯片极度依赖外部采购,然而,随着云计算赛道竞争格局加剧,采购芯片的弊端逐渐显露:

一方面,服务器芯片领域马太效应相当明显,少数芯片巨头掌握着市场话语权:另一方面,先进制程代工厂订单往往处于饱和状态,面对迅速扩张的市场,云计算厂商们不得不就产能问题与上游芯片巨头周旋。

此外,芯片制造商所产出的服务器芯片属“通用”范畴,并不能很好地与云厂商各自的技术架构相融——能够满足最基础的算力要求,却很难提高特定业务及场景的性能。相比之下,自研芯片除了能有效抵御不确定的外部风险,亦能同自身业务及架构耦合,进而提升算力性价比,降低算力功耗。

在此背景下,主流云厂商逐渐开始向下定义硬件和芯片,通过全新的硬件体系提升自身的竞争力。当2017年阿里达摩院成立时,前沿芯片技术难题的攻克便成为其核心研究方向之一。

众所周知,芯片制造领域核心技术壁垒众多,且极度依赖上下游产业链配合,尤其是对“新玩家”而言,且不谈如何弥补技术代差,仅是从零开始构建产业链关系,将耗费大量资源及时间成本。

2018年,阿里全资收购了大陆唯一拥有自主嵌入式CPU IP core的中天微,并将达摩院芯片产品研发团队与中天微团队合并,成立平头哥半导体。阿里由此踏上了通往最硬核场景的征程。

但正如前述所言,通用芯片领域巨头林立,仅凭一腔热血去逾越其技术、专利壁垒,无异于天方夜谭。

此外,通用芯片需要下游客户反复测试迭代,可面对“新玩家”的产品,背负盈利压力的客户往往并不愿意尝试。换言之,即便强行着陆,缺乏用户测试、生态积累的产品亦难以通过走量摊平成本,进而陷入竞争劣势。

因此,平头哥务实地选取了云与芯片结合的路径,使造芯服务于内部算力技术发展的需要。这背后的逻辑很简单:既然知道自己需要什么样的芯片,那不如自己为自己生产粮食。

阿里巴巴由云“向下定义”芯片的第一个目标是AI算力。2019年云栖大会,成立仅仅一年的平头哥发布阿里第一颗芯片含光800,这颗针对AI场景深度定制的芯片,进一步提升了AI算力的效率,为阿里云的企业用户提供了差异化选择。当下阿里的搜索推荐、视频直播等场景,均有含光800的身影。

当然,手握算力攻坚接力棒的平头哥,心中亦怀揣着“诗和远方”。据阿里内部人士透露,在含光800研发的后期,平头哥内部逐渐分化出两种声音:一方认为其应该遵循眼下AI专用芯片这条“相对容易的路”,另一派则想要去做难度更高的通用CPU,“就像真正的芯片公司一样”。

就在这样的背景下,倚天芯片正式立项。就像09年毅然决然地迈向云计算时一样,阿里再度做出了一个艰难而大胆的抉择。

这背后的困苦与迷茫,丝毫不亚于过去阿里云研发团队夜以继日为“5K”奋斗的年代。

2021云栖大会上,阿里首个通用CPU芯片倚天710正式发布。作为一款针对云场景设计研发的通用芯片,倚天710性能超过业界标杆20%,能效比则提升超50%。第二年,神龙架构亦经演替,成长为“CIPU”——一款云数据中心专用处理器,替代CPU来管理和加速计算、存储和网络资源。

由软到硬:阿里的算力启示录

由于倚天710在设计之初就兼顾了易用性,前述通用芯片应用落地如期进行——去年10月发布,一个月后的天猫双11便已有其身影。

正如开头所谈到,只有抵达造芯 “空气稀薄地带”才能触及的通用CPU,使阿里云在诸多核心场景能效提升显著。

而尝到甜头的阿里云,毫不掩饰地告诉外界:未来两年,阿里云20%的新增算力将使用自研芯片。阿里云智能总裁张建锋表示:“云计算的发展进入了全新的阶段,未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”

“云计算从软件出发,从云操作系统出发,阿里巴巴研发了中国唯一自研的云操作系统飞天。到今天,围绕云计算我们重新定义内核、定义硬件。这几年来,平头哥围绕着云计算的场景定义了倚天710芯片,并且走向广泛的大规模使用。”同样在2022云栖大会上,阿里巴巴集团董事会主席兼首席执行官张勇回顾阿里多年历程,说道:“这一系列过程都是阿里巴巴不断追求先进性的表现。”

第三部分:另一条路

如果说,肩负阿里通用芯片期许的倚天710,是其自研芯片叙事的主线,那么阿里对RISC-V开源架构及其生态的部署,则是贯穿故事的副线。

RISC-V架构诞生之前,留给芯片设计玩家的选择并不多,无论是选择x86架构还是ARM架构,均需支付高额授权费。相比之下,RISC-V架构作为开源架构,其指令集可以自由地用于任何目的,不论是设计、制造RISC-V芯片,还是开发相应的软件,既无需授权费,也没有绕不开的专利壁垒。

因此,RISC-V架构被普遍认为是继x86、ARM架构之后,中国芯片产业的第三条路。在阿里端云一体的芯片体系中,RISC-V处理器IP是核心攻克方向,面对庞大的IoT需求,灵活的RISC-V尤为有用。只是,相较于前两者,RISC-V架构并未成熟,技术及应用都面临着极大挑战。

这背后的逻辑在于,新技术始终需要“跨越裂谷”,唯有经历科学、技术、工程、产品、商业化等阶段,才能被主流所接受。

而这,与阿里技术迭代的逻辑一脉相承。从咬牙决定做云计算,到自研造芯,再到前沿科技的发掘,可以看到,阿里所有自研技术的驱动力,都根植于需求——依据社会需求去定义技术问题、锁定研发方向。

面对潜力巨大的RISC-V架构,阿里没有停下脚步,毕竟使RISC-V架构摆脱“雷声大雨点小”的局面,很可能为日后绕过芯片专利壁垒、弯道超车埋下伏笔。

为此,阿里祭出了技术突进及生态并行的打法:技术层面,从前述玄铁910,再到2022云栖大会推出的高能效C908,阿里不断拓宽RISC-V性能边界,建立起了丰富的RISC-V处理器家族,并陆续落地30多个行业;

生态层面,平头哥已完成了RISC-V与RTOS、Yocto Linux、Android、统信等国际主流和国产操作系统的深度适配,特别是在RISC-V和安卓生态的打通上起了决定性作用。

如果说芯片研发是在向“确定性”的技术地带冲刺,那前沿算力的布局,则是真正为“不确定性”下赌注。

而在后一领域,阿里亦有相应布局,从研发全球首款基于DRAM的3D键合堆叠存算一体芯片,到重注可能重塑当今计算体系的量子计算,阿里一直期望在这条科研“冷板凳”上,找到颠覆传统计算的潜力。

由软到硬:阿里的算力启示录

至此,从底层芯片、服务器到云操作系统、计算架构,阿里构筑出完整的算力体系,让阿里云成为国内唯一一家拥有完整自研软硬件技术体系的云服务商。

长达十余年的算力攻坚的成果,也最终转化为阿里在云计算深水区中的护城河。当下,云计算赛道内卷之下,自研核心技术不仅成为了阿里云的壁垒,也使其业务得以降本提质,进而成为国内首个实现盈利的云计算厂商。

芯片是磕出来的,科技公司也一样。从算力攻坚路,再到对前沿技术的追求,新技术架构下的阿里,为自身涂上了科技“底色”,和国际IT巨头们站在同一个起跑线上。

本文来自投稿,不代表增长黑客立场,如若转载,请注明出处:https://www.growthhk.cn/mcn/84288.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-04 10:34
下一篇 2022-11-04 11:36

增长黑客Growthhk.cn荐读更多>>

发表回复

登录后才能评论