IT老兵告诉你数据中台和大数据平台有啥不一样?
【IT168 评论】前几日一篇《“中台”是怎么臭了大街的》把“中台”这个风口又推到了浪尖,自2018年中台火了以后,冰火两重天,赞美和质疑之声从未间断。数据中台是什么?数据中台和大数据平台有啥不一样?相信是很多人的困惑。
ITPUB技术栈在疫情期间推出一系列线上沙龙活动主题包含大数据应用架构、存储与计算、数据治理与数据中台的建设、云计算的实践与探索,本期邀请到了IT老兵王保强,结合自身经验探讨大数据平台和数据中台的建设之道。
目前在南方电网旗下某IT公司任职的王保强主要负责数据治理工作,拥有21年IT工作经验,曾在海南移动负责数据仓库、大数据平台等项目,见证了从传统数据仓库转型到大数据平台的全历程,见证了大数据平台从0到1的全部过程,对数据中台也有自己独特的思考。
什么是数据中台?
现在各种新名词层出不穷,顶层的有智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台;平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…
关于数据中台,王保强总结了市场的几个主要概念和描述:
1、数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
2、数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。
3、数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
4、数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
5、数据中台,包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。
“数据中台就是数据服务化,服务化的核心是数据模型化和服务组件化,服务化的基础是大数据平台或数据仓库。”王保强认为能够提供高效的数据服务化,是数据中台的特征。
结合王保强的实践经验,从数据仓库到大数据平台再到大热的数据中台,是一脉相承的。
数据仓库VS大数据平台VS数据中台
数据仓库
从传统概念来看,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和全局信息共享。
王保强认为数据仓库的主题建模思想是数据仓库的核心。面向主题,采用范式模型理论中的主题划分方法对业务数据进行分类。一致性保证方面,采用维度模型理论中的总线结构思想,建立统一的一致性维度表和一致性事实表来保证一致性。而无论范式建模还是维度建模都非常重视数据质量问题,综合使用两个理论中的方法保证数据质量。合理采取维度退化、变化维、增加冗余等方法,则保证了数据的计算和查询效率。
中国移动省级经营分析系统(以下简称:经营分析系统)的基础数据主要包括参与人、事件、服务、资源、账务、营销和财务七大主题域,并依据实体-关系理论,遵照第三范式进行建模。
数据仓库一般采用分层架构,最底层是来自各业务系统的基础数据,上层是汇总数据,汇总数据来源于对基础数据中的常用指标数据进行轻量汇总,并对关键业务实体进行标准化处理。汇总数据逻辑模型的设计采用自底而上和自顶向下两种方法相结合,首先将清单等汇总形成清单汇总,然后对应信息子层的数据需求,设计个人客户、集团客户、他网客户等主题的汇总。
王保强认为汇总表很关键,汇总数据服务于信息子层,用以减少数据转换步骤,提高数据提供的效率。信息子层是经营分析系统加工后的结果数据,通过数据封装服务,对外提供统一的信息视图。
在中国移动,信息子层逻辑模型的设计采用自顶向下方法,通过分析数据封装和业务规范的需求,形成基础数据视图(如KPI、报表)、个人客户、集团客户、家庭客户、他网客户、产品、渠道、终端、校园客户、垃圾短信客户、网络和营销资源统一视图。这形成了企业数据模型的基础,是数据仓库的一个核心,后续所做的数据挖掘等很大程度上来源于该模型本身的数据质量和数据唯一性、全局性。
数据集市
数据集市通常是数据仓库的子集,将数据仓库中的数据按照不同角度进行组织和存储,主要面向地市分公司或者特定业务部门、特定需求的业务,建立相应的应用专题,例如财务分析。中国移动的数据集市细分为地市数据集市和专业数据集市,其中专业数据集市又分为增值业务数据集市、集团客户数据集市和互联网数据集市。
2012年中国移动的流量业务等增值业务飞速发展,其经营分析系统压力较大,单独构建了增值业务数据集市为经营分析系统减负。数据集市其数据粒度较粗,数据采取星型或雪花型结构,较少保留历史数据,便于访问分析和快速查询。
大数据平台
2013年4G飞速发展,流量业务在中国移动占比也水涨船高,为了争夺用户,需要加强对用户使用流量和轨迹的分析,暴增的流量和分析需求使得原有数据仓库不堪重负,在扩展性和计算能力方面都捉襟见肘,开始逐步构建大数据平台,王保强强调大数据平台是并非一步到位,而是一步一步构建和演进过来的。
随着业务的发展需要,海南移动先后构建了Hadoop平台和流处理平台,为了避免形成数据烟囱和数据孤岛,最终决定统一规划构建一个大数据平台。
2014年底海南移动搭建了12台的Hadoop节点,集群较简单,2015年海南移动每天接入5T上网信令,彼时传统架构的弊端更为明显,小机+数据库计算存储能力不足,扩容成本太高,单机文件采集吞吐量不足。为了解决以上弊端,海南移动构建了Hadoop管理和存储集群,包括分布式文件采集集群、分布式ETL调度集群、应用服务器、MySQL服务器,第一个Hadoop平台就此成型。
随后整个通信行业对用户的争夺异常激烈,需要快速定位用户进行精准营销。彼时海南移动的系统每天接入7T上网信令和5T位置信令,需要对信令实时采集、实时计算、实时事件捕捉,于是搭建了第一个流处理平台。
乍看Hadoop平台和流处理平台很相似,后者在前者基础上加了Kafka消息集群、实时事件处理集群、实时服务集群,两个系统在硬件层面整合到一起,但实际上各个系统独自处理各自的事务。团队认为如果继续采用原有方式构建,会形成烟囱数据。考虑到几个平台的技术栈较为相似,决定统一构建一个大数据平台。
王保强强调构建大数据平台的核心关键在于规划。在技术架构层面,包括硬件规划、磁盘规划、平台软件规划、内存库规划、数据流向规划、平台监控规划等都要做到位。当然除了规划还要在探索中实践,其最终的技术栈和功能视图如下:
企业级大数据平台实现结构化、半结构化和非结构化数据统一存储计算功能,通过数据封装提供服务功能,提供自助报表工具,面向市场、网络以及企业外部提供服务。
大数据平台构建好以后,为了实现数据价值,团队以数据应用为中心构建企业数据模型,为实现内外部应用支撑,又建设了开放共享平台,提供数据服务和Open API服务,为了支持多应用厂家协作开发,又提供了多租户管理,安全管理、数据目录管理。
王保强认为大数据平台、经营分析、数据中台的发展都是一脉相承,都是以企业数据模型的开发为基础与核心,为数据中台的数据服务化做好了准备。在他看来,当初大数据平台的建设实际在向着数据中台的方向构建。
数据中台:生产资料到数据生产力
王保强认为数据中台是数据服务工厂,对于业务的价值是“加速数据到价值的过程,提高企业的响应能力。”是聚合和治理跨域数据,将数据封装成服务,提供给前台业务价值的一个逻辑概念。从这个角度上,与大数据平台的发展一脉相承。
如今在瞬息万变竞争更为激烈的市场,客户需要更准确的触达和更快速的响应,这一切都离不开数据的治理和应用,王保强认为建设数据中台要考虑如何支持业务创新形成核心壁垒。同时也考虑其成本低、能力多、应用广的技术价值,有丰富的标签、支持跨主题域访问数据,且数据可以复用。总结来看,数据中台是把生产资料转换成数据生产力的一个过程,让数据驱动决策和运营。
王保强总结数据中台需要必备汇聚整合、提纯加工、服务可视化和价值变现四个能力,大数据平可以认为是数据原材料采集到加工和存储的企业模型构建的地方,数据中台是数据服务,更多提供服务化方面的能力,让用户快速发现企业现有的数据资产,然后快速开发访问,实现数据资产的可视化,了解企业数据的来龙去脉,快速构建应用实现价值变现。
数据中台自诞生以来便伴随着赞美与争议,上图为王保强提出的数据中台架构,令笔者印象深刻的是他在课程直播时比较谦虚地说这个中台架构不一定对。总体来看在中国数据中台还处在一个探索阶段,希望企业能够结合自身业务做更多有益的尝试,多一些参考,也许就少一些试错成本,让中台有价值地落地。