2023年,生成式AI在科技领域异军突起。随着ChatGPT获得了巨大的成功,亚马逊、微软和谷歌等公司纷纷加快步伐,掀起了一股创新浪潮,以重塑企业和用户利用科技提高生产力的方式。生成式AI已在制药和法律等多个领域取得了显著进展,但这只是一个开始。根据麦肯锡的调查,中国企业人工智能与业务相结合的能力有很大的进步空间,当前只有9%的中国企业可借助AI实现10%以上的收入增长。只有当企业走出实验阶段,开始在实际应用中更广泛地使用生成式AI时,其真正的作用才能更好地展现。
但是,想要将生成式AI的价值最大化,企业必须克服成本和信任的挑战。而要做到这一点,就需要一个充分利用云的强大数据路线图。
成本和信任是最大的障碍
在生成式AI应用中,如果模型是基于不可信的数据训练而成的,它生成有用结果的可能性就会很小。当前的挑战在于,许多企业的数据治理和安全仍处于初级阶段,关键信息往往被锁在孤岛中。如果不进行高成本的整合,这些信息实际上是无法被使用的。在实践中,这意味着AI训练数据的质量可能很差,缺乏关键的业务背景。这可能会导致幻觉,即看似真实的虚构信息或缺乏必要背景的事实反应。无论哪种情况,都对企业无益。
另一个关键痛点是自主运行生成式AI项目的成本高昂。虽然外包存在安全、合规和其他潜在风险,但自主完成所有工作的成本过于高昂。一个专门用于运行大语言模型(LLM)的尖端GPU大约需要3万美元。而一家企业如果要运行一个拥有1750亿个参数的模型,可能需要2000个GPU,成本高达数千万美元。
将实验室中的生成式AI投入到实际应用中
将云基础设施作为AI基础逐渐成为趋势。云提供商拥有GPU资源,可帮助客户扩展生成式AI项目的规模,客户只需按照使用量支付费用即可。这使得企业能够使用生成式AI进行实验,并在完成修补后关闭模型,不必在本地环境中配置GPU。这种方式不仅节省了资本支出,还为企业提供了在必要时重新进行内部运行的灵活性。
所以,在决定使用云后,企业如何才能让生成式AI项目走出实验室,并在实际应用中为企业带来价值呢?在这方面,可以借鉴BRIESO(构建、完善、识别、实验、扩展和优化)模型:
构建(Build):构建现代数据架构和通用企业数据网格。无论是在本地还是在云中,这种构建都将帮助企业获得对数据的可见性和控制权。而且,这还有助于企业建立一个统一本体,用于映射、保护和实现所有数据孤岛合规性。所以,企业应寻找不仅能够满足当前需求,而且能够根据未来增长进行扩展的工具。通常情况下,开源解决方案最为灵活。
完善(Refine):根据当前业务需求完善和优化数据。在这一阶段,尽可能准确预测未来需求非常重要,这将减少迁移过多非必要数据的可能性,这些数据不会带来任何价值,还会大幅增加项目成本。
识别(Identify):寻找将云用于特定工作负载的机会。工作负载分析将帮助企业确定在哪些方面可以产生最大价值。这个阶段的关键在于通过打通各个位置(无论是本地还是多个云)的数据来优化项目。这时也是考虑潜在开发用例的好时机。
实验(Experiment):尝试使用预构建的第三方生成式AI框架,找到最符合业务需求的框架。可供选择的框架很多,例如AWS的Bedrock(HuggingFace)、Azure的OpenAI(ChatGPT)和谷歌的AIPlatform(Vertex)。重要的是不要过早做出决定。为提高项目成功的可能性,模型必须与现有企业数据紧密结合。
扩展和优化(Scale and Optimise):在选择了合适的平台后,就可以考虑选择一到两个用例扩展为生产模型。企业应持续优化流程,但也要密切关注与GPU相关的成本,以防成本大幅提高。当企业的生成式AI应用能力开始提高时,应寻找进一步优化其使用的方法。灵活的AI平台是保证长期成功的关键。
未来近在眼前
IT和企业领导人对生成式AI应用的变革潜力感到兴奋是可以理解的。全球98%的高管认为AI基础模型将在诸如在改进客户服务方面,或是在实现无缝衔接的供应链管理和大幅加强开发运维方面,在未来3-5年战略中发挥重要作用。
企业仍然需要做很多工作。任何AI项目要想取得成功,就必须以现代数据架构为起点,然后进行完善、识别、实验、扩展和优化。企业可以利用生成式AI取得成功的未来已指日可待。
作者:肯睿中国Cloudera大中华区技术总监 刘隶放
网友评论