基于云的大数据应对策略
云服务正在大数据应用中发挥重要作用,尤其是对于那些短期任务,或是已将大量数据存储在云上的应用而言。
云服务对于每个人都具有吸引力。当有人对你说,他们的大数据策略是“把所有的数据都存储在云端” 时,你根本无法判断这些人是有远见的人,还是在简单地重复着专家在行业会议上对他们的建议。
毫无疑问,目前大数据和云范例之间存在着巨大的重合之处。这些交集是如此的广泛,以致于你能够名正言顺地宣称自己正在利用现有的本地Hadoop、NoSQL或企业数据仓库环境,处理基于云的大数据。请记住,云服务被普遍解读为除了公有云、SaaS(软件即服务)和多租户托管环境外,还包括“私有化的”部署。
如果你将“云”的定义局限为公有定购服务,那么你将会触及问题的核心:这就是要识别出哪些大数据应用比本地部署(例如涉及到预优化硬件工具,或是虚拟化服务器集群的本地部署)更适合公有云或SaaS部署模式。
从另一个角度来说,在外部服务商为你提供管理服务的情况下,你何时能够提升大数据的扩展性、灵活性、性能、费效比、可靠性和可管理性?以下是几个大数据存储在公有云服务上的典型应用案例。
已经被托管在云上的企业应用:如果你像许多机构一样,尤其是像中小企业那样,使用外部服务商提供的基于云的应用,那么你的许多源交易数据都已经位于公有云之上。如果你将大量的历史数据存储在上述云平台上,那么它们可能已经积累至大数据级别。对于服务商或是其合作伙伴推出的增值分析服务(例如客户流失分析、营销优化或是异地备份和客户数据归档等服务)而言,将数据存储在云上可能比将数据存储在本地更具意义。
需要大量预处理的海量外部数据源:如果你正在利用社交媒体数据反馈进行客户情感监控,那么本地的服务器、存储或是带宽将无法满足相关分析工作的需求。这是一个典型的应用案例。在这个案例中,你应该利用基于公有云的大数据服务所提供的社交媒体过滤服务。
除了本地大数据功能之外的战术性应用:如果你已经专门为某一应用部署了一个本地大数据平台,例如专门用于非结构化数据源中的海量ETL(抽取/转换/加载)操作的Hadoop集群,那么使用公有云可以更好地处理新的应用(例如多渠道营销、社交媒体分析、地理空间分析、具有查询功能的存档、弹性数据科研沙箱),因为现有平台并不适合处理这些应用,而公有云的按需服务性能更加强大,也更具费效比。实际上,如果你需要尽可能快地拥有可处理拍字节级、流式、多结构化大数据的能力,那么公有云解决方案可能是唯一可行的选项。
庞大短期分析沙箱的弹性配置:如果你有一个需要探索型数据集市(即沙箱)的短期数据科研项目,并且这个沙箱的规模远远超过了正常的规模,那么云可能将是你唯一可行、或是能够负担得起的选项。在项目启动期间,你可以迅速获得基于云的存储空间和处理能力。而在项目结束之后,可以迅速释放这些存储空间和处理能力。我将这种模式称为“气泡集市”部署模式,这种模式特别适合云服务。
如果你已经做了其中的任何一项,那么基于云的大数据所面临的策略性问题就并不是从哪里开始了。随着基于云的大数据服务的成熟,以及性价比、扩展性、灵活性和可管理性的不断提升,问题将成为你将在哪里停止下来。到2020年,伴随越来越多的应用和数据迁移至公有云,关于创建和运营专属自己的大数据部署的想法可能会和现阶段设计属于自己的服务器那样不切实际。