一些数据中心形态的变化

思科发布UCS-X的时候就有一种感觉,是不是刀片服务器又回来了。前些年搞超融合逐渐的把刀片服务器抛弃了,基本上清一色的RackMount Server。思科UCS-X重回刀片时代再加上思科一直在DPU这么火热的时候一点动静都没有,而且又是CXL的几个核心成员却基本上没有太多的谈论这个话题。

前几天看了一份资料[1]基本上弄清楚了服务器部门的一些思考。当然在之前我也和他们的一些VP、PE聊过,毕竟企业的经营并不是全靠技术的情怀,而是需要恰当的去解决更加广泛的用户痛点,这个过程中我也学到了很多知识,也意识到了自己犯过的错误,技术的发展不光是其内在的成熟度,还有周围用技术的人的成熟度和规模等问题带来的痛点暴露。

例如主机网络往400G升级的过程中迟早要遇到问题, 例如我以前提到的DDIO的一些问题,DMA本身的工作机制的问题从研究的角度来看需要去解决,但是从工程的角度来看400G可能还要4年左右才会部署, 没必要为它过早的投资,当然您会说AI训练集群有这个需求,而这一块业务是一个非常特殊的场景,为什么人家不直接买黄教主全家桶要选思科呢。

对于普通企业计算弹性的需求而产生的混合云场景,从应用来看,微服务框架逐渐流行,K8s在企业网的大规模部署也在展开。但是分布式的基于微服务的应用必然增加太多的复杂度。从可靠性来看,例如我们有20个微服务,如果每个微服务可靠性为 但是累积起来整个程序能够成功响应请求的概率只有 ,而另一方面,如果平均每个微服务延迟 , 但是有1%的概率会到 那么如果这个应用有100个事务,那么就会有 的概率延迟在 以上。

所以我们会看到Google和阿里都在用一些更加确定性的方式处理网络,而思科也是最近几年收购了一系列公司实现了全栈可观测性(FSO)的愿景,我们也在很多年前就开始尝试AIOps的方式去在广域网获得可预测的数据转发,例如Nimble和Ruta这些研究项目,在混合云广域网收购ThousandEye并和SDWAN整合实现可预测的广域网传输,在数据中心内AppDynamics还有最近收购的一些容器监控的产品。当然我们也在做一些如何将园区网,SDWAN以及数据中心底层交换机遥测数据和应用可观测数据打通,构建统一的MultiDomain可观测数据湖的研发。

现在一些卖出去的DPU,在企业网的主要场景也都是对于基础设施的遥测可视化的需求居多,同时也有云端远程管理的需求,再往前扩展一步也就是国内常说的果金属。思科在这个场景做的非常出色的一款产品是Intersight,这个云服务平台,然后服务器上的CIMC(BMC)直接通过序列号就可以注册到云上,内含基础设施和应用在整个生命周期的管理,包括Intersight K8s,Intersight Terraform这些组件,同时也有基于FinOPs的资源分配调度的组件,与应用的可观测集成在一起会很大程度的降低混合云分布式应用的成本和提升可靠性.

一些数据中心形态的变化

另一方面是硬件结构的变化,这款UCS-X采用无中背板的结构,因此基本上是设计一个框伴随着前后背板升级可以用十年

一些数据中心形态的变化

前面板可以根据您的需求调配不同的板卡做资源池,CPU/存储/GPU都可以,后背板上部是一个类似于以前TOR交换机的板卡,容量差不多有3.2Tbps,而精彩的地方在下半部分X-Fabric,现在是一块PCIe交换机,CXL交换机应该会在正式发布后升级支持,并且可支持CXL内存扩展板.

密度上来看,这个框支持8个A100体积和DGX也差不了多少

从企业计算规模来看,这样一个框应该可以跑到数千个容器了,算力来看单机已经足够满足现阶段和未来几年计算需求了。而CXL3.0出来以后,这个X-Fabric会不会再拖几根线出来多个框互联也是蛮值得期待的。

这是在主机侧的一些变化,随着局部的主机构成一个组,在组内CXL总线通信,数据中心的网络拓扑会有什么变化呢?一方面东西向流量会不会爆炸性增长?例如一些公司的超算集群已经在使用Double FatTree了,而FatTree成本的问题是否要考虑,CXL和以太网两张网组网成本会不会更高,中间是CXL over Ethernet做过渡还是interworking with RoCE做过渡?这种以局部8~16台主机构成一组伴随着互联, 拓扑是否会有从Spine-leaf演进到DragonFly的趋势呢?答案是肯定的,现在世界前几的超算基本上都是DragonFly了,而Google的Aquila也是

同时我们注意到Brcm新的51.2T交换机芯片也明确提到支持Torus和DragonFly拓扑, 似乎这些拓扑的变化和业务的刚需也给各位做网络的兄弟们带来了新的机会,当然也带来一些问题了,在DragonFly网络中,想让RDMA流量拐弯选择Global Link有一些难度了,而网卡本身也需要很好的设计,Google自己做了一些放在一起堆成一个局部交换机,大概推测是几块FPGA堆一起的

至于绕行链路,做过大规模分布式路由器的厂家都懂,Cell based Fabric with iSLIP调度就好了

而另一方面,华为因为受到一系列影响,反正外购都买不到了,索性自己直接把NOC做了,而这一点上和Nvidia倒也有一些异曲同工之妙,同时比Nvidia的Cache处理更加高效干净。

一些关于华为NOC和谷歌Aquila论文的想法

当然这样的基础架构的变革带来的上层软件系统的变革也值得思考,前段时间海波老师也在谈到2030操作系统的话题,蛮值得去看看的

业界洞察 | 陈海波:面向 2030 的操作系统架构与演进思考

接下来若干年,既有经济下行的压力,又有技术变革的挑战蛮值得期待的。

Reference

[1]

Cisco UCS-X Update: https://www.nts.eu/app/uploads/2022/04/NTS_BOXENSTOPP_Cisco_UCS-X_Update.pdf

一些数据中心形态的变化》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.hashtobe.com/44.html