通过系统和混乱的方式测试获得云弹性
持续以系统和混乱的方式测试云将帮助公司避免在停机导致断开连接的情况下出现云故障。足够幸运的专业人员可以在原地安置和在家工作,他们可以感谢Cloud在COVID-19大流行期间如此无缝地转移的能力。
想象一下没有云的锁定。食品杂货订购系统的可用性和正常运行时间将取决于公司的本地数据中心。在高峰时段(晚餐时间和其他需求旺盛的时间之后),流媒体服务会停滞不前。关键的个人和专业互动将仅限于语音呼叫,而不是丰富的协作应用程序,视频会议或动态社交媒体。许多公司只会关门大吉对企业而言,无法应对市场变化和消费者。
现在,想象一下COVID-19引起的在家工作的情况,其中停机时间在云中。远程工作的团队会崩溃。交货将被混乱和丢失。更重要的是,应急服务将以更少的工具来管理,从而激增更大的浪潮。当前共享冠状病毒研究和数据的全球医学研究团队将失去彼此的联系,从而延迟和减慢了治疗和治愈COVID-19病毒的努力。
似乎是及时建立了云以帮助解决我们当前的困境。但是云计算的概念和基础系统可以追溯到50年前。流行,实用的云应用程序在过去20年中发展迅速,从Salesforce.com的早期迭代开始,最近才有了基于Web的企业应用程序,例如Google的G Suite和Microsoft的Office365。这些相对较新的工具的简单性导致其被广泛采用。但是,该表面层掩盖了令人难以置信的复杂底层知识,必须充分理解和测试这些底层知识才能进行维护。
现在云很紧。IBM在6月9日经历了大约两个小时的云中断。网络监控公司ThousandEyes告诉技术新闻网站Fierce Telecom,该中断的全球性特征是控制平面问题,而不是诸如光纤切断或路由器故障之类的物理故障。随着公司转向远程工作以及使用其通信和协作平台(包括Teams Balloon),Microsoft在欧洲的Azure云数据中心的能力显示出压力的迹象。为了缓解这种压力,Microsoft限制了对免费和试用帐户的访问。6月29日,美国东海岸部分地区的Google Cloud的Kubernetes平台和网络服务停顿了几个小时。
为了避免由于云故障而导致的停机,公司必须通过以连续且混乱的方式对其进行测试,从而在其云结构中建立弹性。
常规测试从根本上确保关键应用程序已在云中迁移或设置并正常运行。这是确保云系统满足设计注意事项并且不会根据应用程序性能进行更改的一种行之有效的方法。但是,常规测试无法探测意外情况。为此,先进的操作转向了Netflix率先采用的混沌测试技术。在2011年开始向云端迁移期间进行。混沌测试造成了动荡的局面,这些局面会给照明带来失败并影响设计。现代云系统以复杂而流畅的方式将硬件和软件结合在一起,以至于标准测试永远无法满足需求。通过进行系统的,混乱的测试,公司可以在云中以及整个技术系统中提高弹性。
为了实现弹性,IT必须找到正常的“快乐之路”测试方案中未发现的漏洞。寻求弹性可以通过执行精心计划的一系列灾难来了解系统的可靠性和可恢复性。这样的灾难序列可能包括:
断开网络连接10秒钟。使服务或服务器脱机。阻塞中间件并观察异常情况。刚开始向云迁移的企业必须首先研究并选择最合适的服务模型。希望将整个工作负载迁移到云的公司应选择“基础架构即服务”(IaaS)选项,该选项使团队可以在云中快速协调其测试环境并快速设置用于存储,备份和恢复的系统。
已经在云中或已部分迁移的组织必须花一些时间来了解其云服务模型。这可能会引发问题:这种模式是否适合我的组织在未来几年使用?
这些公司在云中运行时,可以开始计划测试方案以评估其系统的弹性。为此,公司应设置运行测试的目标和时间窗口。然后,这些测试的结果有助于告知其云设置的需求设计阶段。
随着所有系统和应用程序都在虚拟云环境中,未来的数字转换将变得更加流畅。经过适当测试的云还可以更轻松地应对需求激增,并可以应对病毒式应用程序的采用或快速的位置切换或人员扩充。
为了具有弹性,公司必须创建弹性的IT系统。这些系统将部分或全部依靠云基础架构。通过不断,系统和混乱的测试,云基础架构变得更具弹性。一致的,有创意的测试具有其自身的价值,该价值使企业自身能够变得更加灵活,更具弹性。