腾讯云DLC 数据湖计算重磅协助Apache Hudi

发布时间：2023-02-21 12:32:38 所属栏目：云计算来源：互联网

导读：腾讯云数据湖计算 DLC提供了一个迅捷高效的数据湖分析和计算服务。该服务采用无服务器架构（Serverless）设计，用户无需关注底层架构或维护计算资源，使用标准 SQL 即可完成对象存储服务（COS）及其他云端数据设施的联合分析计算。借助该服务，用户无需进行

　　腾讯云数据湖计算 DLC提供了一个迅捷高效的数据湖分析和计算服务。该服务采用无服务器架构（Serverless）设计，用户无需关注底层架构或维护计算资源，使用标准 SQL 即可完成对象存储服务（COS）及其他云端数据设施的联合分析计算。借助该服务，用户无需进行传统的数据分层建模，大幅缩减了海量数据分析的准备时间，有效提升了企业数据敏捷度。

　　数据湖计算 DLC 通过类 SaaS 化的服务设计，为客户提供云原生企业级敏捷智能数据湖解决方案，具备以下特点：

　　• 依托腾讯云大数据内核技术增强能力，为企业提供稳定、安全、高性能的计算资源。

　　• 使用标准 SQL 语法即可完成数据处理、多源数据联合计算等数据工作，有效降低用户数据分析服务搭建成本及使用成本，提高企业数据敏捷度。

　　• 供 SaaS 化开箱即用的使用体验，无需关注底层架构或维护计算资源，企业培训、使用门槛更低。

　　Apache Hudi 是新一代流式数据湖平台，其最主要的特点是支持记录（Record）级别的插入更新（Upsert）和删除，同时还支持增量查询。

　　Apache Hudi 支持插入、更新和删除数据的能力。相比其他传统的文件格式，Hudi 优化了数据写入过程中产生的小文件问题。您可以基于 DLC Spark 或 Flink 实时摄取消息队列（Kafka 等）的日志数据至 Hudi 中，同时也支持实时同步数据库 Binlog 产生的变更数据。

　　过去的增量处理往往将数据划分成小时粒度的分区，当属于此分区内的数据写入完成时，该分区就能对外提供相应的查询，这使数据的“新鲜程度”可以达到小时级别。但如果发生数据迟到的现象，唯一的补救措施是通过对整个分区的重新计算来保证正确性，这增加了整个系统的在计算和存储方面的性能开销。Hudi 支持 Incremental Query 查询类型，您可以通过 DLC Spark Streaming 查询给定 COMMIT 后发生变更的数据，这降低了在计算资源方面的消耗，同时可以将数据的新鲜程度从小时级别提升到分钟级别，让数据在湖内不同层之间快速流转。

　　Hudi 通过将数据的更新时间缩短至几分钟，提供了一种面向实时分析更有效的方案。此外，借助于 DLC Presto和 SparkSQL 与 Hudi 的无缝集成和出色性能，您可以在无需任何额外配置的情况下，对更实时的数据进行更快的分析。

　　Apache Hudi是一个支持插入、更新、删除的增量数据湖处理框架；可助力构建高效的企业级数据湖。

（编辑：甘南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

腾讯云DLC 数据湖计算 重磅协助Apache Hudi

腾讯云DLC 数据湖计算重磅协助Apache Hudi