去年是云数据分析和机器学习的元年。最大的两家公司微软和Databricks都对自己的平台进行了彻底改革,前者也成功推出了产品。
正如你所预料的那样,谷歌是云数据分析市场上的一个大玩家,在过去的几年里,它赢得了沃尔玛、汇丰、沃达丰和家得宝等公司的客户,在某些情况下,它取代了Teradata等公司的成熟的本地企业数据仓库系统。
在新技术方面,谷歌在2023年对这是对其产品线进行了补充和调整,而不是我们看到的微软和Databricks那样作为主要平台发布。谷歌的数据仓库BigQuery拥有自动伸缩和压缩存储,同时在设置各种工作负载需求的特性方面有更多的选择和灵活性。客户还可以混合使用标准、企业和企业Plus版本,以根据工作负载实现他们喜欢的价格性能。BigQuery Data Clean Rooms允许跨组织共享和匹配数据集,同时尊重用户隐私并维护数据安全。
在AlloyDB Omni中,谷歌提供了兼容PostgreSQL的数据库服务,可以在其他超大规模云、本地和开发者笔记本电脑上运行。它包括一系列自动化工具,可以帮助从Oracle或IBM Db2等较老的成熟数据库系统进行迁移。
但在数据平台方面,主要参与者从一个地方为商业智能、分析和机器学习提供结构和非结构化工作负载,采用了令人怀疑的“lakehouse”术语,谷歌已经拥有了竞争所需的东西,谷歌数据分析副总裁兼总经理Gerrit Kazmaier告诉the Register。
“你的这些广泛的数据记录需要大型分析系统。让它们不仅交织在一起,而且实际上无缝集成是非常重要的,例如,您甚至不需要将数据从一个系统复制到另一个系统:BigQuery与数据库写入的相同位置的相同数据进行对话。零延迟,零开销,不需要镜像或复制,因为基本上你可以访问任何地方,”Kazmaier说。
在谷歌的架构中,用于安全和治理的统一访问层将BI、数据仓库和ML等应用连接到后端,后端由BigQuery Managed Storage和Google Cloud Storage以及来自AWS S3和微软Azure Storage的多云存储提供服务。
至少在概念上,这种架构与微软的产品类似。Microsoft Fabric于6月宣布,并于11月全面推出,它还承诺通过其OneLake技术为各种应用程序和工作负载提供服务,该技术将所有内容存储在开源的、Linux基金会管理的Delta表格式中,该格式起源于Databricks。
微软解释说,这种方法允许像Power BI这样的应用程序在Synapse数据仓库上执行工作负载,而无需发送SQL查询。相反,在Onelake中创建一个虚拟数据仓库,它将数据加载到内存中。这家雷德蒙德巨头声称,这种方法提供了性能加速,因为在执行SQL查询的过程中没有更多的SQL层。
虽然它与微软的方法有相似之处,但谷歌的架构依赖于Iceberg表格式,该格式由Netflix开发,现在通过Apache基金会开源。
Kazmaier说:“我们在BigQuery上进行了几十年的创新,特别是在查询性能、访问时间、查询优化方面,并通过BigLake实现了这些创新,这样客户就可以从冰山社区获得性能和丰富的开发。具体来说,我们在如何访问和理解元数据以及如何访问文件方面进行了许多优化,这使得冰山和BigQuery在GCP上具有卓越的性能,”他说。
虽然该领域的所有主要供应商都表示,他们已经或将支持基于Apache Parquet文件格式的所有表格式——Iceberg、Delta和Hudi,但每个供应商都强调自己“原生”支持哪些格式。这一趋势导致了行业的分裂,Databricks、微软和SAP支持Delta,而谷歌、Cloudera、Snowflake、AWS和IBM的Netezza则支持Iceberg。
Kazmaier说Google对Iceberg的支持是基于对开源的坚定承诺。“Iceberg是一个Apache项目:它受到非常明确的管理,它与任何供应商都没有联系,并且有来自社区的广泛贡献。”
他说,谷歌选择Iceberg作为“主要的数据策略格式”是对客户需求的回应,但它也增加了对Delta和Hudi的支持,因为一些客户已经建立了以databrick为中心的堆栈。
“真正的答案在于,作为客户,你希望自己有多灵活。如果你选择成为最灵活和开放的人,Iceberg会给你最广泛的这些品质。如果您更关心从以Databricks为中心的部署中获得一个lakehouse架构,那么Delta是一个不错的选择。我们看到Iceberg的普及速度非常快。”
上个月,从Apache Spark数据湖发展而来的数据平台公司Databricks也宣布对其堆栈进行重大改革。它承诺在“lakehouse”概念之上建立一个新的“数据智能”层,该概念于2020年初推出,将数据仓库的结构化BI和分析工作负载与数据湖的混乱世界结合起来。在一份没有透露产品细节的声明中,该公司表示将推出“数据智能”层DatabricksIQ,以“为我们平台的所有部分提供动力”。
在保留lakehouse的跨数据和人工智能的统一治理层,以及跨越ETL、SQL、机器学习和BI的单一统一查询引擎的同时,该公司希望继续利用其以13亿美元收购生成式人工智能初创公司MosaicML所获得的技术。Databricks表示,他们的想法是利用“人工智能模型来深入理解企业数据的语义”。
虽然Databricks的lakehouse支持SQL查询,但是对于它在企业规模上支持BI工作负载的能力还是有一些批评。Gartner在2021年指出,基于云的数据湖可能难以处理来自10个以上并发用户的SQL查询,尽管Databricks对这一说法提出了异议。上个月,Ventana Research分析师Matthew Aslett表示,越来越多的组织在尝试扩展数据湖和支持企业BI工作负载时,意识到了这些困难。
例如,Adidas已经围绕Databricks建立了一个数据平台,但也创建了一个使用内存数据库Exasol的加速层,以提高并发工作负载的性能。
Kazmaier解释说,Google的并发方法避免了更多虚拟机的旋转,而是提高了子cpu级别单元的性能。“它可以无缝地移动这些容量单位,所以你可能有一个查询正在完成并释放资源,可以立即移动到另一个查询,这可以从加速中受益。所有这些微优化都是在系统没有调整的情况下进行的。它不断地为你提供你在运行的工作负载上使用的容量的理想预测,”他说。
Gartner去年早些时候发表的一篇论文认可了这种方法。“按需和固定费率的预订模式提供了在整个组织内分配容量的方法。根据所使用的模型,将槽资源分配给提交的查询。当插槽需求超过当前可用性时,其他插槽将排队等待处理,一旦容量可用。这种处理模型允许持续处理并发的大型查询工作负载。”
虽然微软和Databricks可能因其2023年的数据堆栈公告而吸引了市场的眼球,但Ventana的Aslett认为,主要参与者之间几乎没有什么可选的,任何明显的技术领先都可以归结为发布节奏。
展望来年,谷歌可能希望从竞争对手那里抢回一些风头。
原文《Google flaunts concurrency,optimization as cloud rivals overhaul platforms》
网友评论