湖仓一体的发展现状及未来趋势 深度解读

近日,赛迪顾问正式发布了国内首份《湖仓一体技术研究报告》。对此,巨杉数据库特邀赛迪顾问软件与信息服务业研究专家,对《湖仓一体技术研究报告》进行了深入解读。伴随数

近日,赛迪顾问正式发布了国内首份《湖仓一体技术研究报告》。对此,巨杉数据库特邀赛迪顾问软件与信息服务业研究专家,对《湖仓一体技术研究报告》进行了深入解读。

伴随数字化在各行各业的深化发展,企业不但需要面向业务的「交易核心」,同时更需要构建面向企业全量数据价值的「数据核心」。不同于传统「交易核心」往往仅针对特定业务系统解决其交易需求不同的是,「数据核心」需要汇聚从多个「交易核心」产生的实时交易流水数据,为全企业跨业务的多个系统提供高并发的实时对客全量数据查询及数据探索分析能力。湖仓一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中的备受关注焦点。

本次解读分享,结合湖仓一体技术的发展历程,对现阶段业界重点产品,典型案例,未来趋势等多方面内容进行了剖析,综合评判了湖仓一体技术的发展阶段及未来应用场景。

· 湖仓一体技术的发展现状

现阶段,数据湖与数据仓库的融合发展主要有三个技术路径,根据不同路径的技术特性,可以满足不同场景下的客户需求。

第一个是基于Hadoop体系的数据湖向数据仓库能力扩展,在数据湖中建数据仓库,通过引入数据仓库的分析功能,从数据湖直接进化到湖仓一体。

第二个是基于自身云平台进行架构构建,主要是公有云厂商基于自身云平台或相关产品,通过自研技术打通数据湖与数据仓库,实现湖仓一体功能。

第三个是以独立数据库厂商为代表的梯队,其以数据库技术为基础,自研分布式平台,从调度、计算到存储不依赖第三方平台,形成可以灵活在公有云、私有云、裸金属等场景独立部署的湖仓一体平台。这类的代表厂商如海外的Snowflake,Databricks及国内的巨杉数据库等。

报告选取了业界比较主流的6个湖仓一体产品进行对比分析,包括海外厂商Snowflake、Databricks及亚马逊AWS智能湖仓,国内厂商巨杉数据库SequoiaDB、阿里云MaxCompute湖仓一体方案、华为云FusionInsight。

从设计初衷来看,各家产品虽然技术路线不同,或自研,或基于开源,或基于自身云平台的产品组合,但最终目的均一致是为了降低数据在不同平台间的流动,这样做的好处一方面是技术上可以降低客户的管理成本,另一方面在商业上也提升了客户粘性和操作体验。比如像亚马逊AWS、阿里云、华为云,会通过各类云上的工具打通不同产品或组件间的数据流通,而Snowflake、Databricks、巨杉数据库则会尽可能让同一平台上的数据具备更丰富的应用场景。

从特性上来看,各个厂商均强调了ACID事物一致性,因为在湖仓一体中,数据不再如同传统数据仓库中的离线分析数据,客户的业务数据将更实时的以数据流的方式写入。虽然湖仓一体不需要如同事务型数据库一样,拥有低延迟的在线交易能力,但是在数字化转型需求下,系统同样需要提供实时的数据查询分析能力,及保证在某一时间点上数据的准确性。

整体分析后不难看出,Snowflake从数据仓库逐步提供多元化的数据处理,其最新版本也进一步强化了数据实时服务能力。Databricks的优势在于对非结构化数据处理的AI机器学习及科学计算上,并持续扩展其数据仓库的分析能力。巨杉数据库以统一平台下跨结构化、半结构化、非结构化的多模数据处理能力为基础,重点提供高并发的实时对客查询,并持续扩展实时湖仓的分析能力。亚马逊AWS、阿里云、华为云则更注重于其基于自身云生态的技术能力整合,简化了云平台客户在数据处理上的复杂度。

在报告中,也对湖仓一体的典型应用案例进行了分析,具体内容可下载报告后进行阅读。

· 湖仓一体技术的未来趋势

分析来看,“湖仓一体”架构在数据管理中呈现出六大技术特性。

一是支持分析多种数据类型,包括结构化、半结构化和非结构化数据。

二是数据可治理,在保证数据完整性的同时,具有健全的治理和审计机制,能够避免数据沼泽现象。

三是事务支持,企业数据往往要为业务系统提供并发的读取和写入,对事物ACID的支持,可确保数据并发访问的一致性、正确性。

四是BI支持,能够支持直接在源数据上使用BI工具,加快分析效率,降低数据延迟。

五是存算分离,使系统能够扩展到更大规模的并发能力和数据容量。

六是开放型,采用开放、标准化的存储格式,并提供丰富的API支持。

与此同时,随着湖仓一体技术的不断成熟,未来将在四大应用场景中发挥作用。

场景一:服务于数据中台的实时数仓。由于数据中台要求其数据库在分析处理过程中,需强调事物一致性,并保持低延迟与提升实时处理能力,这些都是湖仓一体的典型技术特性。

场景二:支撑微服务的数据融合底座。可有效解决扩展困难以及维护困难的问题。

场景三:全量数据实时访问平台。在数字化转型过程中,对客实时查询,历史数据服务平台,或IoT物联网系统中,会产生实时处理海量数据的需求,湖仓一体的弹性扩展能力能够很好满足这一需求。

场景四:进行非结构化数据处理,数字化转型中通过AI机器学习及比对分析,非结构化数据将包含更多元化的业务属性,为各类业务系统提供信息输入。湖仓一体能够有效提升非结构化数据的处理能力。

更多内容,欢迎搜索《湖仓一体技术研究报告》,下载完整版报告。