基于Apache Hudi在Google云创建数据湖平台的思路详解

发布时间：2023-02-20 11:01:24 所属栏目：Apache 来源：互联网

导读：自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进

　　Apache Spark 是用于大规模数据处理的开源统一分析引擎。 Spark 为具有隐式数据并行性和容错性的集群编程提供了一个接口。 Spark 代码库最初是在加州大学伯克利分校的 AMPLab 开发的，后来被捐赠给了 Apache 软件基金会，该基金会一直在维护它。

　　在 Google Dataproc 实例中，预装了 Spark 和所有必需的库。创建实例后，我们可以在其中运行以下 Spark 作业来完成我们的管道：

　　spark-submit
　　 --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2
　　 --master yarn --deploy-mode client
　　 --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer /usr/lib/hadoop/hudi-packages/hudi-utilities-bundle_2.12-0.10.1.jar
　　 --table-type COPY_ON_WRITE --op UPSERT
　　 --target-base-path gs://your-data-lake-bucket/hudi/customers
　　 --target-table hudi_customers --continuous
　　 --min-sync-interval-seconds 60
　　 --source-class org.apache.hudi.utilities.sources.debezium.MysqlDebeziumSource
　　 --source-ordering-field _event_origin_ts_ms
　　 --hoodie-conf schema.registry.url=http://localhost:8081
　　 --hoodie-conf hoodie.deltastreamer.schemaprovider.registry.url=http://localhost:8081/subjects/dbserver1.inventory.customers-value/versions/latest
　　 --hoodie-conf hoodie.deltastreamer.source.kafka.topic=dbserver1.inventory.customers
　　 --hoodie-conf bootstrap.servers=localhost:9092
　　 --hoodie-conf auto.offset.reset=earliest
　　 --hoodie-conf hoodie.datasource.write.recordkey.field=id
　　 --hoodie-conf hoodie.datasource.write.partitionpath.field=id
　　这将运行一个 spark 作业，该作业从我们之前推送到的 Kafka 中获取数据并将其写入 Google Cloud Storage Bucket。我们必须指定 Kafka 主题、Schema Registry URL 和其他相关配置。

（编辑：甘南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页