企业如何构建数据驱动的生成式AI飞轮?
刘沙
责任编辑:刘沙
电脑商情在线
时间:2024-05-07 16:29
生成式AI 数据 大模型 亚马逊云科技
当生成式AI的浪潮席卷而来时,所有不甘落后于时代的企业都开始思考:如何把生成式AI的能力应用到自己的业务中?
然而,这些企业必须明白一个前提:大模型并不能代表全部能力,在实际使用过程中,要想把大模型的价值真正发挥出来,企业还要同时具备多个关键能力,数据就是其中之一。
无数据,不模型
"企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。"亚马逊云科技大中华区产品部总经理陈晓建告诉记者,"正所谓无数据,不模型!"当每个企业都能访问相同的基础模型时,只有把数据用好才能创造差异化的能力。
有人统计过,如果一本书的数据按照500KB来计算,500T参数的模型需要332亿本书,这相当于地球上现存的每个人都拥有4本书,而这些书籍连接起来能够实现从地球到月球的往返。
陈晓建解释到,生成式AI基础模型诞生于大规模、高质量的数据集,数据与基础模型结合才会产生独特的价值,而且企业必须管理好飞速发展的生成式AI应用产生的新数据,用自身的数据去定制基础模型,使生成式AI应用实现差异化。
通过数据定制基础模型的三种方式
据介绍,企业通过数据定制基础模型的方式主要有三种:检索增强生成(RAG)、微调和持续预训练,这三种方式分别适用于不同的应用场景。针对这三类模型定制方式,亚马逊云科技的Amazon Bedrock都能够提供支持。
其中,检索增强生成(RAG)是指企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。RAG适用于知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等场景。
微调是使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能,适用于角色理解、输入理解、输出格式控制等场景。
持续预训练是指企业利用自身专有数据(如内部文档、客户记录等)对模型进行持续预训练。适用场景包括理解行业领域知识/术语,以及用于严控数据合规等。
而且,这三种方式需要的数据规模、数据来源和技术要求也不同:
RAG需要GB级别的企业数据;微调需要GB级人工标注的高质量数据;持续预训练则需要TB级未标注的原始数据。
RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱;微调的数据来源是私域知识;持续预训练数据来源则是公开的数据集或企业各部门数据。
在技术要求方面,RAG需要通过向量检索迅速查找相关信息,让大语言模型能更快速、准确地响应,产生结果;微调需要选取和校验符合业务需求的高质量数据集;持续预训练则需要能够大规模、分布式清洗加工原始数据集的能力。
亚马逊云科技助企业构建数据基座三大核心能力
陈晓建表示,企业构建生成式AI应用需要具备三大数据能力,亚马逊云科技构建数据基座的三大核心能力涵盖了从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力,从而加速企业业务增长。
• 首先是利用现有数据支持微调或预训练模型的能力。
从原始数据集到训练出基础模型不仅要找到合适的存储来承载海量数据,清洗加工原始数据为高质量数据集,还要对整个组织内数据进行编目治理。
在数据存储方面,扩展性和响应速度是关键。Amazon S3的容量、安全和功能都满足微调和预训练基础模型对数据存储的要求:Amazon S3拥有超过200万亿个对象,平均每秒超过1亿个请求。它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层,降低训练成本。文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,进一步加快模型优化的速度。如LG AI Research 使用Amazon FSx for Lustre ,将数据分发到实例中来加速模型训练,开发自己的基础模型 EXAONE,通过减少基础设施管理和提高GPU扩展效率,降低了约35%的成本。
在数据清洗方面,企业的数据清洗加工任务非常繁重。Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、分词操作,让企业专注于生成式AI业务创新。Amazon EMR serverless采用无服务器架构,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源。Amazon Glue是简单、可扩展的无服务器数据集成服务,可以更快地集成数据,连接不同数据源并简化相关的代码工作,降低管理运维难度,方便开发者进行灵活构建。
在数据治理方面,企业难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,且缺乏相对应的工具技能。Amazon DataZone让企业能跨组织边界大规模发现、共享和管理数据,不但为多源多模态数据进行有效编目和治理,还提供简单易用的统一数据管理平台和工具,为用户解锁所有数据的潜能。
• 第二是将现有数据快速结合模型产生独特价值的能力。
由于生成式AI基础模型缺乏垂直行业的专业知识和时效性,容易生成错误信息,产生用户敏感数据的隐私合规风险,所以具有一定的局限性。
将模型与数据结合的主要方式之一就是检索增强生成,它通过将数据转换为向量,并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。其专门构建的图数据库Amazon Neptune还推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接,通过将图和向量数据一直存储能够实现更快的向量搜索。
• 第三是有效处理新数据,助力生成式AI应用飞速发展的能力。
对生成式AI应用程序来说,频繁调用基础模型将会增加成本、导致响应延迟,所以企业必须提升调用模型的效率。
陈晓建指出,企业可以通过基础模型结果缓存来提升性能,降低成本。Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索,能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能,非常适合欺诈检测和实时聊天机器人等实时场景。
此外,为了帮助企业的生成式AI应用程序快速占领市场,亚马逊云科技还提供了无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索,最大限度为企业减少运维负担和成本,消除性能瓶颈,使企业能够专注于生成式AI业务创新。
最后,陈晓建总结到,生成式AI并不是一个简单的工作,而是一个飞轮的结构,要让这些飞轮实现正向循环,企业可以通过亚马逊云科技提供的多种有效的云服务打造坚实的数据底座。这样企业才能高效、安全的把海量数据和各种基础模型结合在一起,创建一系列具有独特价值的生成式AI应用程序,真正满足最终客户的需求,从而产生更多的数据,再进一步提升模型的准确度,让模型更智能,再提供更好的客户体验,以此产生一个正向的生生不息的生成式AI数据飞轮,帮助企业走向成功。