大家好,我是来自京东的包勇军,今天主要跟大家分享一下京东全域大数据平台的建设历程。在分享前,我想先重申一下数据的价值。
一、数据的价值
The Economist(经济学人期刊),2017年,5月版
众所周知,数据正如石油一样深刻改变着我们的信息化社会,为整个行业,更为我们的社会创造了越来越大的价值。
左图为公开资料:Forrester发布《数据中台2019年行业分析报告发布》;右图为公开资料整理
上图有两个直观的展示:
从数据角度来看,大部分的这类科技公司都是通过生产、加工、消费和重构数据的循环来提升商业价值,这是他们的一个共同本质。
国内大数据行业趋势
来源于:公开资料整理
从宏观政策角度来看,近些年来我国的大数据相关政策也相继出台。政府连续六年把大数据写入政府工作报告,市场预测在2023年大数据直接相关产业将达到1.57万亿的规模,而间接关联行业也已经深入到各行各业的日常生活消费当中。可以看出,我们的所有企业,包括传统企业都在做深刻数字化转型。
二、行业大数据平台现状
1、行业大数据平台发展阶段
来源于:公开资料整理
从一个技术人的角度看,我们认为大数据平台在应对整个行业诉求方面当前还处在一个探索期,还在起步的阶段。
数据中台的概念逐步受到市场关注,但是数据平台在企业的成功应用案例仍然局限在头部互联网企业,以及相关的创新型企业,但我们希望达到的目标是将数据中台打造成行业内所有企业的一个标配的基础能力。
2、行业大数据平台架构
距离数据平台建立一个统一的行业标准、统一的监管规范仍然有相当长的路需要去走。这是一个大数据平台架构简图:
来源于:公开资料整理
从这个架构图可以看到:
这两个特点为诸多企业建立标准统一的大数据平台和进行数字化转型带来了很高的技术门槛,同时技术路线的不清晰也隐藏各种决策的风险。
3、行业大数据平台建设的挑战
我们认为建设行业大数据平台面临着诸多的问题:
我们也从京东的大数据实践中提炼了一些核心点,希望对大家有所帮助:
三、京东全域大数据平台的建设历程
结合前面提出的一些核心问题,下面我来分享一下京东在大数据平台建设中的一些历程和心得。
1、京东大数据平台的整体情况
从总体规模上来看,平台的集群服务器已经在数万规模,日计算任务数在数百万级别,总存储达到EB级别。
从业务赋能角度上看,平台面向京东全部业务场景,支撑了包括京东主站电商业务、金融业务、京东物流、京东健康等诸多复杂业务场景。
2、京东大数据平台建设历程
为达到以上这两个效果,实际上我们整个平台经历了很长的建设和发展历程。这个历程包括了五个阶段:
1)规模化阶段
规模化解决了京东业务急剧增长带来的挑战。随着业务增长,数据急剧膨胀,无论是堆机器还是人力,都无法满足高速增长的业务需求,也无法有效保障如此大规模平台的稳定性。
想要解决这个问题还需要回到问题本身。京东的实践表明,随着平台体量增加,业界开源社区流行的一些开箱既用技术,需要进行深度定制和创新性改造,才能有效支撑海量数据规模的需求。
所以我们在这方面做了一些系统性的工作。
① 高效的计算存储引擎
② 自动化运营管理系统
除了底层引擎核心能力以外,我们还需要建设上层的自动化运维和管理系统。这不仅涵盖了对服务器资产的运维运营、资源治理和规划,还包括了对整个数据资产的盘点和收益分析。
我们也希望通过自动化运维,通过系统化管理解决平台规模化、平台可靠性和平台可用性问题,高效支持业务快速布局和起量。
2)体系化阶段
① 业务快速并行发展带来的挑战
随着主营业务的逐渐成熟,新兴业务也快速发展并对数据平台带来新的挑战:
② 数据中台的核心目标
我们从金融业务,物流业务,电商业务,保险业务、健康业务等不同业务的特点和需求出发,逐步构建成标准化、可管理、可维护、可理解、可复制、一站式、体系化的数据中台,解决了前面提到的业务复杂、数据异构、烟囱化开发、建设成本高等问题。
通过数据层面全链路的规范、盘点、治理,以及平台工具层面业务标准化支撑,打造出京东全集团体系化数据中台。
总而言之,体系化是数据中台的核心目标之一,覆盖了数据从生产、计算、存储、消费的全生命周期,为数据价值的高效发挥提供了坚实基础。
基于体系化建设的经验,我们也沉淀和打磨各项数据能力,提炼出一系列的产品化解决方案。这种体系化建设的方法论和实践经验,让我们在业务快速布局、快速发展的阶段中,能够使数据非常高效的输入到决策引擎,形成快速的商业决策。
3)实时化阶段
随着数据规模扩张,业务数据决策体系化标准和理念越来越为大家所接受,整个业务发展也越来越快,对应的数据应用诉求也越来越多。这也对整个数据平台的实时化能力提出了更高的要求。
① 速度是永恒的诉求,快速响应市场变化
实时数据处理中,高吞吐低延迟指标是一个永恒的诉求。
如何基于海量数据支撑业务的秒级决策,在竞争日益激烈的市场环境下,快速响应市场的变化,赢得竞争优势。这对实时化能力提出很高的挑战,促使我们对系统进行实时化改造。
由于电商行业的特点,我们还面临着618,双11大促洪峰的压力。那么如何在大促场景下保障系统的高可用和高性能,同时保证日常情况下实现资源的高效利用,是我们面临的一项独特挑战。
加之整个公司业态众多,各业务线人员技术背景参差不齐,而我们希望新兴技术能够在各个业务团队快速推广,从而使其可以将更多精力投入业务探索、创新上面。这对实时数据开发的易用性也提出了挑战。
② Easy Realtime实时计算平台
针对实时化的这些挑战,我们制定了一个端到端的一站式解决方案:打造Easy Realtime实时计算平台。
首先,这是一个高可用系统。一方面,我们在任务调度、数据分发、状态恢复等方面进行了深度定制优化,大幅提升了系统鲁棒性,也经历了多次大促洪峰的考验;另一方面我们落地了基于容器的云原生弹性资源调度,打造了全自研的自愈框架,实现自动化自适应的故障恢复能力,能有效的保障系统和平台的稳定性。
其次,Easy Realtime平台是企业级应用平台,集成了一站式云代码开发,并直接对接云原生实时计算平台。
平台的建设目标是让没有任何代码开发能力的一线业务同事,例如京东的采销同事,甚至是ISV代理,经过短时间培训,能够具备SQL能力、快速上手,自主实现业务决策开发。
4)智能化阶段
该阶段是对数据的深度理解,这是业务再增长的一个动力源。
我们希望通过智能化改造,打造以高效精准业务决策为目标的数据化智能服务。同时希望通过智能化改造,把我们以统计分析为主的大数据平台,升级到以数据智能化、数据精准化、数据深度化理解的一个数据算法综合型平台。
通过这样一个平台,希望能够对数据进行一个全新的理解,深层次的加工,从而挖掘更多、更全面、更精准的信息,帮助我们业务方能够在市场竞争环境下获得更大的技术优势。
① 智能化转型面临的挑战
京东大数据平台智能化转型面临以下三个特殊挑战:
② 九数(9N)商业分析和业务智能化平台
九数商业分析和业务智能化分析平台的架构图
平台里有几个核心的算法引擎,包括9N-FL联邦学习引擎。支撑这些引擎的基础是面向整个算法领域的云化资源管理系统,它与面向数据的管理系统无缝集成,形成一站式的数据算法解决方案,最终赋能京东的零售业务、健康业务、金融业务等, 推动业务的高速发展。
以京东广告业务为典型案例,
5)商业化阶段
京东全域大数据平台架构Easy JData
基于以上四个阶段的发展,我们最终打造出依托于实际业务支撑经验的,可同时支持多领域应用(零售、物流、金融、健康等)的全域大数据平台。它包含的系统、工具、产品和方法论,与业内主流数据中台也有一定的共通之处。
在建设过程中遇到的挑战,也在前面给大家一一介绍过。在当下政企数字化转型如火如荼的关口,京东的这些经验最终将沉淀出相应的技术产品或工具,并能够走出去,助力行业发展。
让我们来一起畅想下全域数据平台的发展方向,希望伴随业务的发展,我们能够持续修炼技术内功,加强技术升级,实现云原生的智能数据平台。同时能深化和落实Deep AI的概念,加速业务深度赋能。最后希望能将京东经验回馈整个行业,以PaaS化、SaaS化为抓手,与合作伙伴协作共赢,建设健康可持续的大数据商业生态。
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删