2022开发者专场 从Amazon Redshift实战沙龙看云数仓以后发展趋势
发布时间:2023-02-20 13:20:31 所属栏目:云计算 来源:互联网
导读:大数据时代,企业对数据带来的业务价值有哪些期待?如果你参加了Amazon Redshift实战沙龙,一定会有更深刻的感悟! 12月30日,2022re:Invent Recap 开发者专场系列线下沙龙活动如期召开,本次会议由亚马逊云科技和ITPUB社区联合举办。继上一场Amazon Aurora
大数据时代,企业对数据带来的业务价值有哪些期待?如果你参加了Amazon Redshift实战沙龙,一定会有更深刻的感悟! 12月30日,2022re:Invent Recap 开发者专场系列线下沙龙活动如期召开,本次会议由亚马逊云科技和ITPUB社区联合举办。继上一场Amazon Aurora Serverless 数据库开发者专场活动之后,以“化繁为简,Amazon Redshift让数据架构走向Zero-ETL时代”为主题的云数仓沙龙活动,精彩纷呈,现场座无虚席! 针对企业用户重点关注的实际业务问题,比如:如何去构建一个云原生的数据战略?面向未来的云数据基础设施有哪些选择?亚马逊云科技 资深解决方案架构师 史天 ,以“Amazon Redshift业务价值及亮点功能更新”为话题点,进行了诸多分享! 谈到大数据,很多企业的基本用法都是从数据库中抓取很多业务数据,然后出BI报表,辅助老板或者团队做商务决策,这也是传统且典型的一些业务场景。再之后,数据不再是传统的关系型数据,还有数据湖、SaaS应用等其他数据来源,如何把这些数据导入数据仓库做相应分析呢?其中会涉及不同的数据源,也就是ETL的一些工作,包括抽取(extract)、转换(transform)、加载(load)这样一个Pipeline! 与此同时,企业业务正在发生新变化,之前做分析报表,或者做BI分析的时候,大部分数据都是离线模式,比如:出一个上个月、上周的产品销售分析,稍微快一些的,可以是前一天的数据分析。现在,各种应用数据都是实时打到应用系统中,到了实时数据分析平台之后,会变成批或者离线形式,对实时数据分析有很大影响。如何提升实时性?让数据在新鲜度很高的情况下,就能做实时分析,也是现在云数据仓库或者数据平台重点关注的方向! 有了很多数据之后,能做机器学习分析,也能实时捕捉数据的一些变化,那下一步的考虑是,如何实现数据变现?除了对数据进行分析,为业务提供一定的见解之外,如何把数据转化成对我们业务更有价值的产品,类似于数据即服务的模式,能对应用带来更大帮助,这是数据现代化的一种表现,是有别于传统数据仓库或者数据平台的一种新架构。 以上这些变化,是Amazon Redshift经过十年演进,走过的心历路程。换言之,提供面向未来的现代化数据架构,正是Amazon Redshift的长项。借助最新发布的Zero ETL功能,亚马逊云科技可以帮助客户完成从0到1的构建,再实现从1到0的蜕变。Redshift与Amazon Aurora数据库深度集成,在事务型数据写入Aurora后,数据在底层被持续地复制到Redshift,完成行式数据存储到列式数据存储的转换,彻底消除了自己构建和维护复杂数据管道的工作。同时,借助Amazon Redshift Integration for Apache Spark,用户可以通过类似EMR、Amazon Glue这样的Spark引擎来消费Amazon Redshift里面的数据。和之前相比,优化之后的技术可以使Spark引擎对Amazon Redshift数据抽取性能提升10倍多。 “在简单、可扩展的Amazon Glue 4.0时代,企业可以让数据集成更快,并且能实现大规模自动化。”亚马逊云科技 资深解决方案架构师 肖红亮,在“全链路云原生数据服务能力解析(大数据+云数仓+机器学习)”主题分享过程中,全面介绍了无服务器数据集成带来的业务价值。 以Amazon Glue为例, Amazon Glue 是一项完全托管,无服务器架构的ETL服务,客户无需预置基础设置,仅需由 Glue 负责预置、扩展 Spark 运行环境,并且使用 Amazon Glue 时,只需为 ETL 作业运行时间付费。其中借助Amazon Glue Data Quality,系统可以自动提供数据质量规则建议,通过持续的数据分析使数据保持高质量,同时控制数据湖和数据流水线中数据集的数据质量,确保用户成本收益最大化。在Amazon Glue中,企业还能扩展现有的Python框架代码,无需管理或者调优基础设施,建立全面数据分析流程。 可以说,企业要想快速构建数据流水线,实现ETL自由,Amazon Redshift是底层基础设置的重要支撑。而凭借Amazon Redshift与其他数据分析应用的无缝集成,用户可以获得更完美的数据分析体验。比如:可以实现高性能格式存储数据,以更经济有效的方式将存储扩展到千兆字节,可实现存储和计算的分离,并且能支持ACID事务,实现分析和机器学习引擎的选择等等。 (编辑:甘南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |