从实验室到应用：推动生成式AI的成功

刘隶放 2024-06-21 08:37:52

企业站_资讯眼

2023年，生成式AI在科技领域异军突起。随着ChatGPT获得了巨大的成功，亚马逊、微软和谷歌等公司纷纷加快步伐，掀起了一股创新浪潮，以重塑企业和用户利用科技提高生产力的方式。生成式AI已在制药和法律等多个领域取得了显著进展，但这只是一个开始。根据麦肯锡的调查，中国企业人工智能与业务相结合的能力有很大的进步空间，当前只有9%的中国企业可借助AI实现10%以上的收入增长。只有当企业走出实验阶段，开始在实际应用中更广泛地使用生成式AI时，其真正的作用才能更好地展现。

但是，想要将生成式AI的价值最大化，企业必须克服成本和信任的挑战。而要做到这一点，就需要一个充分利用云的强大数据路线图。

成本和信任是最大的障碍

在生成式AI应用中，如果模型是基于不可信的数据训练而成的，它生成有用结果的可能性就会很小。当前的挑战在于，许多企业的数据治理和安全仍处于初级阶段，关键信息往往被锁在孤岛中。如果不进行高成本的整合，这些信息实际上是无法被使用的。在实践中，这意味着AI训练数据的质量可能很差，缺乏关键的业务背景。这可能会导致幻觉，即看似真实的虚构信息或缺乏必要背景的事实反应。无论哪种情况，都对企业无益。

另一个关键痛点是自主运行生成式AI项目的成本高昂。虽然外包存在安全、合规和其他潜在风险，但自主完成所有工作的成本过于高昂。一个专门用于运行大语言模型（LLM）的尖端GPU大约需要3万美元。而一家企业如果要运行一个拥有1750亿个参数的模型，可能需要2000个GPU，成本高达数千万美元。

将实验室中的生成式AI投入到实际应用中

将云基础设施作为AI基础逐渐成为趋势。云提供商拥有GPU资源，可帮助客户扩展生成式AI项目的规模，客户只需按照使用量支付费用即可。这使得企业能够使用生成式AI进行实验，并在完成修补后关闭模型，不必在本地环境中配置GPU。这种方式不仅节省了资本支出，还为企业提供了在必要时重新进行内部运行的灵活性。

所以，在决定使用云后，企业如何才能让生成式AI项目走出实验室，并在实际应用中为企业带来价值呢？在这方面，可以借鉴BRIESO（构建、完善、识别、实验、扩展和优化）模型：

构建（Build）：构建现代数据架构和通用企业数据网格。无论是在本地还是在云中，这种构建都将帮助企业获得对数据的可见性和控制权。而且，这还有助于企业建立一个统一本体，用于映射、保护和实现所有数据孤岛合规性。所以，企业应寻找不仅能够满足当前需求，而且能够根据未来增长进行扩展的工具。通常情况下，开源解决方案最为灵活。

完善（Refine）：根据当前业务需求完善和优化数据。在这一阶段，尽可能准确预测未来需求非常重要，这将减少迁移过多非必要数据的可能性，这些数据不会带来任何价值，还会大幅增加项目成本。

识别（Identify）：寻找将云用于特定工作负载的机会。工作负载分析将帮助企业确定在哪些方面可以产生最大价值。这个阶段的关键在于通过打通各个位置（无论是本地还是多个云）的数据来优化项目。这时也是考虑潜在开发用例的好时机。

实验（Experiment）：尝试使用预构建的第三方生成式AI框架，找到最符合业务需求的框架。可供选择的框架很多，例如AWS的Bedrock（HuggingFace）、Azure的OpenAI（ChatGPT）和谷歌的AIPlatform（Vertex）。重要的是不要过早做出决定。为提高项目成功的可能性，模型必须与现有企业数据紧密结合。

扩展和优化（Scale and Optimise）：在选择了合适的平台后，就可以考虑选择一到两个用例扩展为生产模型。企业应持续优化流程，但也要密切关注与GPU相关的成本，以防成本大幅提高。当企业的生成式AI应用能力开始提高时，应寻找进一步优化其使用的方法。灵活的AI平台是保证长期成功的关键。

未来近在眼前

IT和企业领导人对生成式AI应用的变革潜力感到兴奋是可以理解的。全球98%的高管认为AI基础模型将在诸如在改进客户服务方面，或是在实现无缝衔接的供应链管理和大幅加强开发运维方面，在未来3-5年战略中发挥重要作用。

企业仍然需要做很多工作。任何AI项目要想取得成功，就必须以现代数据架构为起点，然后进行完善、识别、实验、扩展和优化。企业可以利用生成式AI取得成功的未来已指日可待。

作者：肯睿中国Cloudera大中华区技术总监刘隶放

点击展开全文