数据中台架构演进过程详解(概念、原理、演进、架构设计)
作者:hangge | 2025-06-20 09:09
一、什么是中台?
1,中台的起源
(1)中台是从 2019 年开始“火”起来的一个概念。这个概念最早是因为阿里巴巴集团在 2015 年提出的“大中台,小前台”战略而开始传播的。
(2)中台的灵感来源于一家芬兰的公司 Supercell,这是一家仅有 300 名员工,却接连推出爆款游戏的游戏公司。这家看似不大的公司,设置了一个强大的技术平台,以支持众多的小团队进行游戏研发。这样一来每个团队就可以专心创新,不用担心基础却又至关重要的技术支撑问题。
(3)在传统 IT 时代,无论项目如何复杂,都可以分为“前台”和“后台”两部分,简单明了。每一个业务线负责维护自己的“前台”和“后台”,如下图所示:
- 这里的“前台”不仅仅包含前端页面,还包含提供的各种服务;
- 这里的“后台”指的是底层的服务,例如提取出的一些工具服务。

(4)如果项目的发展相对稳定,并不需要像快速迭代和试错,那这种架构没有什么问题。发展到现在的互联网时代,传统的“前台+后台”这种架构是存在一些问题的——产品线之间会存在一些重复的内容,如下图所示:
- 图中的用户模块、支付模块、交易模块、搜索模块,每一个产品线都需要,如果每一个产品线都开发 1 套,这样就会有 N 套用户模块、支付模块、交易模块、搜索模块。对于集团公司而言,这就属于“重复造轮子”,存在资源浪费。如果后期又增加了新的产品线,则要重新开发这些模块。

(5)为了提高开发效率,此时就有必要抽取出一个中间组织,为所有的产品线提供一些公共资源,这个中间组织就是中台。
2,中台的分类
(1)中台是一个大而全的概念,基于中台延伸出了多个方向:
- 技术中台
- 移动中台
- 业务中台
- 数据中台
- 研发中台
- 组织中台
(2)下图所示的是某大型企业的中台技术栈全景:

二、什么是数据中台
1,数据中台的定义
(1)通俗来讲,数据中台是指利用大数据技术对海量数据统一进行采集、计算和存储,并对外提供数据服务。
- 数据中台其实可以这样理解:它负责采集企业全域数据,然后存储起来,接着通过加工计算打通数据之间的关系,最后以 API 的形式对外提供数据服务。
(2)在目前中台的多个方向中,数据中台是最为火热的,因为数据可以直接为企业决策提供支持,可以直接产生价值。
2,数据中台的作用
(1)数据中台的主要作用是:对企业内部的所有数据进行统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的、高可用的大数据服务。
(2)下图展示了某企业引入数据中台前后架构的变化:

3,数据中台和大数据平台的区别
数据中台不是单纯的技术叠加,不是一个技术化的大数据平台,二者有本质区别:
- 大数据平台更关心技术层面的事情,包括研发效率、平台的大数据处理能力等,针对的往往是技术人员。
- 而数据中台的核心是数据服务能力,它不仅面向技术人员,还面向多个部门的业务人员。
三、数据中台演进过程
1,数据库阶段
(1)最开始是数据库阶段,主要是 OLTP(联机事务处理)的需求。
(2)在这个阶段,互联网黄页才刚刚出现,数据来源大部分还是传统商业的 ERP/CRM 的结构化数据,数据量并不大(GB 级别),简单的数据库就能满足需求。
2,数据仓库阶段
(1)随着用户规模的增加,数据量也随之增加,此时分析需求的比重越来越大了,于是就进入数据处理的第二个阶段——数据仓库阶段。
(2)这个阶段,数据仓库主要支持的是 BI 和报表需求。
提示:这里所说的数据仓库指的是基于传统数据库技术构建的数据仓库,并不是基于大数据技术构建的数据仓库。
3,数据平台阶段
(1)随着数据量越来越大,从 TB 级别进入 PB 级别,原来的技术架构无法支撑海量数据处理,这时就进入数据处理的第三个阶段——数据平台阶段。
(2)这个阶段解决的还是 BI 和报表需求,但主要是在解决底层的技术问题,即数据库架构设计的问题。
(3)传统的单机数据库架构无法满足海量数据的存储和计算需求,因此需要引入扩展性更好的集群技术架构,以 Hadoop 为代表的大数据平台解决方案可以提供更好的并行处理和扩展能力。
4,数据中台阶段
(1)数据中台阶段主要是通过系统来处理 OLTP 和 OLAP 需求,强调数据业务化能力。
(2)这个阶段的特征是数据量呈现指数级增长,从 PB 迈向 EB 级别。2015 年之后,IOT(物联网)发展起来了,带动了视频、图像、声音数据的增长。
(3)5G 技术的发展会进一步放大视频、图像、声音数据的重要性。要使用这些数据,光有算法不行,还需要有云服务来存储和处理这些数据,以及打通其他领域的数据,最终赋能业务,这样数据才算产生了真正的价值。
四、数据中台架构
1,常规的数据中台整体架构
(1)数据中台屏蔽了底层存储计算平台的技术复杂性,降低了对技术人才的要求和数据的使用成本,提高了数据使用的便捷性。一个常规的数据中台整体架构如下图所示:
- 数据采集:该模块是数据的入口,数据中台本身不生产数据,所有的数据都来源于业务系统、数据库和日志等,这些数据本来是分散在不同的业务系统中的,难以综合利用,很难产生业务价值,所以需要采集汇总起来。
- 数据计算:该模块中集成了一整套的数据计算分析工具。通过数据采集模块采集到的数据都是原始数据,没有经过加工处理,无法直接使用,所以需要通过数据计算模块,按照一定的业务逻辑对数据进行加工处理,形成有价值的数据。
- 数据仓库:通过数据采集和数据计算模块,数据中台就具备了构建数据仓库的基本能力,需要将采集的全域数据按照数据仓库的规范进行构建,便于后期使用。
- 数据资产:通过数据仓库构建的数据是比较偏向于技术的,业务人员不好理解。数据资产模块是按照业务人员更好理解的方式将数据对外展现。
- 数据服务:该模块主要是将数据变为一种服务,通过服务让数据参与到业务中,激活整个数据中台。数据服务模块是最终体现数据中台价值的模块。
- 数据安全:该模块主要用于对数据中台的数据提供权限控制,保证数据安全。
提示:为了更加通俗易懂的理解数据中台架构,在这里将数据中台的功能总结为四个字:采、存、通、用。

(2)下面是另一个公司的数据中台架构图:
2,采
(1)“采”是指采集企业中的所有数据。
(2)随着互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始变得多元化,数据的产生形式也变得多样化。
- 从数据采集形式可以划分为:埋点采集、硬件采集、爬虫采集、数据库采集和日志采集。
- 从数据组织形式可以划分为:结构化数据、半结构化数据和非结构化数据。
- 从数据的时效性可以划分为:离线数据和实时数据。
(3)在采集这些数据时,需要借助于 Flume、Filebeat、Logstash、Sqoop、Canal、DataX 等工具。
- 如果采集工具无法完美支持企业中的复杂数据采集场景,则可以对采集工具进行二次开发。最好以可视化配置的方式提供给用户,屏蔽底层工具的复杂性,支持常见的数据源采集(关系型数据库、NoSQL 数据库、消息队列、文件系统等),并且支持增量同步、全量同步等同步方式。
3,存
(1)“存”是指将采集过来的数据按需存储。
(2)将数据采集过来之后,就需要考虑数据存储了。从存储形式可以将数据大致分为两种:静态数据和动态数据。
- 静态数据:这种类型的数据基本上会存储在 HDFS 、S3 等分布式文件系统中,主要应用于离线大数据分析场景。
- 动态数据:这种类型的数据基本上会存储在 HBase、Redis 等 NoSQL 数据库中,主要应用于海量数据随机读写场景。
4,通
(1)“通”是指对数据进行加工计算,打通企业中各个业务线之间的数据。
(2)数据计算可以分为以下两块。
- 离线计算:以 MapReduce、Spark 为代表的离线计算引擎。
- 实时计算:以 Storm、SparkStreaming、Flink 为代表的实时计算引擎,目前主要以 Flink 为主。
(3)对于这些计算引擎,如果每一个分析需求都需要开发对应代码,则对使用人员就太不友好了,特别是对于一些业务人员,他们只会写 SQL 代码。所以这时就需要开发一套基于 SQL 的一站式开发平台,底层引擎可以使用 Spark 或 Flink,支持离线数据计算和实时数据计算,这样就可以让用户彻底摆脱掉繁重的底层代码开发工作,提高工作效率。
5,用
(1)“用”是指对数据的管理和使用。
(2)数据自身是没有价值的,只有结合具体的业务场景去使用才能让其发挥价值。
(3)数据的管理主要包括元标准管理、标签管理、模型管理、元数据管理、质量管理等,以保证数据的合理化和规范化,充分发挥数据的价值。
(4)在使用数据时需要做好数据安全管理,因为这里会涉及海量用户的隐私数据。最终以 API 接口的形式将安全、有价值的数据快速方便地提供给上层应用使用。
全部评论(0)