每一个细节都值得探究——数据中心整机柜的成长史
随着新基建的一步步推进,数据中心这一本来默默无闻的产业成为了新热点,尤其是闪烁着智慧灯光的机柜通道,也因为其高曝光率以及酷炫的科技感官为大众所熟知。但对于数据中心整机柜为什么设计成今天的样子,绝大多数人,包括很多运维工程师都不甚了了。
近日,在开放计算大师课第二讲上,浪潮开放计算专家张斌以《开放计算整机柜前世今生》为题,向收看课程的观众详细介绍了在开放计算社区的影响下,数据中心整机柜服务器的演变过程。
从“单打独斗”到“齐心协力”
一台服务器、一条网线、一个UPS、一个……
在最初,并没有所谓数据中心的存在,企业自身数据多数存放在单一的服务器中。无论是多强大的服务器,本质上只是一台独立的电脑,承载着企业的命脉,单独的运行在机房中。
随着数字化社会的发展,无论是企业还是个人对算力的需求都在快速增加,每一个客户端产生的数据量也在飞速增长。传统的“单打独斗”的服务器部署模式再难满足新时代的需求。因此,由众多服务器组成的“数据中心”就此诞生。
当然,此时的数据中心还处于雏形阶段,简单的1+1不但不能产生等于2的效果。相反,因为服务器数量并非简单提升,还需要更加精致、细密的服务器部署技术来配合。同时,布线、散热、安全等在复杂环境下的运维也同步需求提升。
服务器的数量提升,最先受到的挑战其实是服务器的摆放问题,数据中心机柜也是因此诞生并且不断的改进以更加高效、低成本的容纳服务器。其次要考虑的就是如何稳定、安全的供电。在供电问题之后,又要考虑到大量服务器产生的热量如何快速的散发出去等等。
同时,数据中心的众多细节也不容疏忽。比如布线,随意的布线会对系统稳定造成很大的隐患,并且给后期运维带来难以估量的麻烦。再比如消防安全,如何第一时间发现消防隐患,又如何处理意外失火等事故,其它如安保、照明、网络等等……都需要数据中心的设计师全盘考虑。
在一个个面临的问题解决后,如今的数据中心才算真正出现。数据中心也不再被简单的认为是放置服务器的机房,更是一个由“风、火、水、电、网”等复杂要素组成的算力基础设施。
从“各立山头”到“开放共享”
随着时代的发展,数据中心向着集中化、规模化、精细化发展。互联网应用和云计算业务的爆发性增长,推动数据中心规模越来越大。大型、超大型规模数据中心运营专业化程度越来越高,精细化运维需求越来越强。
单体数据中心规模的迅速膨胀,带来了众多的问题和挑战。比如电力供给对园区乃至城市带来的能源压力,大密度机柜集群带来的散热问题,数量众多的设备带来的运维难题等等。而由于建设方式、软硬件部署、运维规划的不同,很多数据中心的运维环境都是独有的,对于数据中心运维者来说,似乎又回到了“单打独斗”的年代。
开源、开放在数据中心领域的登场顺理成章。
对于IT产业来说,开源开放既是一直以来的潮流,也是未来的趋势。回顾开放开源的历史,开放的边界越来越广阔。从最初的操作系统、数据库、中间件的开源到云和大数据、算法框架等基础软件的开源,再到以Risc-V为代表的芯片的开放,以OCP、ODCC为代表的计算硬件的开放。至此,开放计算正式登场,成为了解决数据中心领域进一步发展的最佳路径。
由软件到硬件,从芯片到数据中心,开放变革了IT产业的生产模式和应用服务模式,持续推动着信息技术的发展,促进了整个IT产业的生态繁荣。
开源开放的IT,才是一个健康的IT。
开放计算的诞生与发展
在未来的发展过程中,IT会面临越来越多的挑战,仅仅依靠单一厂商去解决是不可能的。开源开放的理念使得全球越来越多的开发者聚集在一起提供解决方案,然后通过开源方式分享给所有人,以支持IT产业的可持续发展。
2011年,全球第一个开放计算组织OCP成立。OCP由FaceBook发起,最重要的项目之一是研发21英寸标准的整机柜。OCP在设计之初就将架构优化的范围延伸到数据中心的环境本身,这一点在其后由BAT主导,在中国成立的本土开放计算组织“ODCC”上也有很好的体现。
由LinkedIn主导成立的Open19则略有不同,该组织基于传统机房既有的19英寸标准机柜进行设计优化,致力于建立一种与数据中心环境解耦的独立平台。
虽然各开放组织在成员、技术上都有很大的差异性,目的却殊途同归——优化整体数据中心TCO,降低运维复杂度, 利用生态推动创新。各组织也为业界提供了优秀的开放计算产品,无论哪一种产品,背后都有需求的推动和无数工程师的心血。开放计算产品的每一个细节,都值得深入的去探究,去学习。
以ODCC的天蝎整机柜为例,从2010年浪潮与第一代SR1.0诞生,到2012年正式命名为天蝎,到2019年的天蝎3.0已经更新了五代。OCP的Open Rack、OPEN19整机柜同样经历了多次的升级。
这期间,机柜尺寸从19英寸改变为21英寸到再次兼容19英寸,节点从竖插进化为横插并进一步演化为混插,散热体系也经历了从独立散热到集中散热再到独立散热的转变。在整体上演进方向上,开放计算整机柜的从分步简化到统一部署一次到位,标准化、模块化、柔性化设计成为了主流。
工程师这样“折腾”,当然不是为了升级而升级,每一次细节的改进,都带来了可观的进步和效益。比如在被反复“折腾”的供电层面看,以通用的两U两路,采用550伏的PSU,1+1冗余的服务器为例。正常的工作状态下为了实现冗余,工作负载会低于550瓦,一般在450瓦左右。此时PSU负载是40%。如果将PSU负载调整到50%的最佳负载,初步评估,两种负载会带来1.5%左右的供电效率的差异。作为一个20万节点的超大规模数据中心,仅PSU转化效率这一点的话,一年就可以节省630万人民币的电费。
PSU转化效率的提升仅仅是开放计算技术众多演进的冰山一角,类似的改进在开放计算的演进历史中可谓比比皆是。了解历史,才能掌握未来,如果对开放计算的发展有兴趣,欢迎观看视频,了解开放计算整机柜的前世今生。