开源数据平台开发商Alluxio近日宣布,将推出Alluxio Enterprise AI的最新增强功能,3.2版本。3.2版本展示了该平台普遍利用GPU资源的能力,I/O性能的改进,以及具有HPC存储竞争力的端到端性能。它还引入了一个新的Python接口和复杂的缓存管理特性。这些进步使组织能够充分利用其人工智能基础设施,确保最高性能、成本效益、灵活性和可管理性。
AI工作负载面临着几个挑战,包括数据访问速度和GPU计算之间的不匹配,这导致由于Ray, PyTorch和TensorFlow等框架中缓慢的数据加载而导致GPU未充分利用。Alluxio Enterprise AI 3.2通过提高I/O性能和实现超过97%的GPU利用率来解决这个问题。此外,虽然HPC存储提供了良好的性能,但它需要大量的基础设施投资。Alluxio Enterprise AI 3.2使用现有的数据湖提供了相当的性能,消除了对额外HPC存储的需求。最后,管理计算和存储之间的复杂集成是一项挑战,但新版本通过Python文件系统接口简化了这一点,支持POSIX、S3和Python,使其易于被不同的团队采用。
Alluxio Enterprise AI包括以下主要特性:
*在任何地方利用GPU实现速度和敏捷性-Enterprise AI 3.2使组织能够在任何GPU可用的地方运行AI工作负载,是混合和多云环境的理想选择。它的智能缓存和数据管理使数据更接近gpu,即使远程数据也能确保高效利用。统一的命名空间简化了跨存储系统的访问,使AI在不同和分布式环境中无缝执行,允许可扩展的AI平台没有数据局部性限制。
*可与HPC存储媲美的性能——MLPerf基准测试显示,利用现有的数据湖资源,Enterprise AI 3.2与HPC存储性能相匹配。在BERT和3D U-Net等测试中,该公司在各种A100 GPU配置上提供了相当的模型训练性能,证明了其在实际生产环境中的可扩展性和效率,而无需额外的HPC存储基础设施。
*更高的I/O性能和97%以上的GPU利用率- Enterprise AI 3.2增强了I/O性能,实现高达10GB/s的吞吐量和单个客户端的200,000 IO/s,可扩展到100个客户端。该性能在单个节点上完全饱和8个A100 GPU,在大型语言模型训练基准测试中显示超过97%的GPU利用率。新的检查点RW支持优化训练推荐引擎和大型语言模型,防止GPU空闲时间。
* Python应用程序的新文件系统API -版本3.2引入了Alluxio Python文件系统API,一个FSSpec实现,可以与Python应用程序无缝集成。这扩展了Alluxio在Python生态系统中的互操作性,允许像Ray这样的框架轻松访问本地和远程存储系统。
*先进的缓存管理效率和控制- 3.2版本提供了先进的缓存管理功能,提供管理员对数据的精确控制。一个新的RESTful API促进了无缝缓存管理,而智能缓存过滤器通过有选择地缓存热数据来优化磁盘使用。cache free命令提供粒度控制,可以提高缓存效率、降低成本并增强数据管理的灵活性。
网友评论