熟悉亚马逊云科技中国峰会的科技发烧友都知道,峰会第二天的开场主题演讲无异于一场“硬核”产品发布会。
2023年亚马逊云科技中国峰会的Day2,亚马逊云科技大中华区产品部总经理陈晓建、亚马逊云科技全球产品副总裁Matt Wood博士先后奉献了上下各半场高密度输出。
(资料图)
“如果把所有这些放在一起——机器学习的创新、定制化的芯片,以及利用Amazon Bedrock使用模型,你会发现‘从未有过如此简单、低成本的,借助机器学习进行代码构建的方式’。”Matt Wood博士谈到。
亚马逊云科技全球产品副总裁Matt Wood博士
在今天,生成式 AI 已经在创意、搜索、交互,以及智能决策等方面展示出广阔的应用前景。
陈晓建指出:“面对算力需求井喷所带来的挑战,我们通过自研芯片提供更好的性价比,通过各种丰富的计算、网络、存储等各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,全面满足用户的多样化的算力需求。”
亚马逊云科技大中华区产品部总经理陈晓建
放眼席卷全球的智能化转型和创业浪潮,与大语言模型与生成式AI相关的领域依然有着相当高的门槛。
而为此,亚马逊云科技已经准备好了一整套组合拳。
Matt Wood博士对这套组合拳做了详细地展开:“首先要提供对一流基础模型的访问,第二需要提供安全私密的环境去定制模型,第三需要通过定制芯片提供低成本和低延迟访问;第四需要搜寻机会提升使用体验。”
大语言模型是热度最高的焦点话题,亚马逊云科技推出的Amazon Bedrock提供对众多基础模型的访问,具体来说,这项新服务允许用户通过 API 访问来自 AI21 Labs、Anthropic、Stability AI 和亚马逊的基础模型。
Amazon Bedrock已经成为客户使用基础模型构建和扩展生成式AI应用程序的极简方案,为所有开发者降低使用门槛。在 Amazon Bedrock上,用户可以通过可扩展、可靠且安全的亚马逊云科技托管服务,访问从文本到图像的一系列的基础模型。
亚马逊云科技自己的Amazon Titan是一系列不同的模型的库,可实现文本归纳总结、搜索结果嵌入、有害内容删减等,用户可以非常安全、隐私地对这些模型做优化和微调。
亚马逊云科技还开发了基于机器学习的Amazon CodeWhisperer ,它为开发人员提供代码生成服务,支持包括Java、JavaScript和Python等在内的15种不同的编程语言。
并且,CodeWhisperer 对个人用户完全免费。据介绍,在测试中与未使用CodeWhisperer的参与者相比,使用者完成任务的速度平均快57%,成功率高27%。
对于亚马逊云科技在硬件方面的举措,陈晓建进行了详细地阐述:针对算力需求紧缺,亚马逊云科技提供全面深入的基础设施能力,包括Intel、AMD、英伟达,和自研的CPU及加速芯片产品。
陈晓建系统复盘了亚马逊云科技自研芯片之路,过往十余年来亚马逊云科技在芯片领域的投入,也让其可以从容应对突发的算力需求井喷。
2013年,亚马逊云科技推出云服务器虚拟化引擎Amazon Nitro系统,Nitro也是亚马逊云科技的第一款自研芯片产品,去年亚马逊云科技推出的第五代Nitro将每瓦性能提高了40%。
如此幅度的提升不容小觑:
- 实现了非常轻量级的虚拟化。在此前业界经常看到的虚拟化损耗通常在20-30%之间,Nitro通过硬件虚拟化,整个性能损耗不到1%;
- 实现了网络和存储在硬件级别的隔离机制,导致我们在用户通信和拥有存储的数据通信的时候之间是完全隔离的,不会造成互相的干扰;
- 在硬件层面实现了硬件的加密,任何进出Nitro的数据包都会进行硬件级别的加密,最大限度保证用户数据通信的安全。
亚马逊云科技Arm架构的通用处理器Graviton 3与上一代产品相比,计算性能提高多达25%,浮点性能提高多达2倍,加密工作负载性能最多加快2倍。第四代产品Gravtion3E则在针对高性能计算应用场景的向量计算性能上,再提升了35%。
亚马逊云科技认为,未专门针对机器学习优化的GPU将难以长期胜任云上机器学习任务,为此,针对机器学习的两个环节,亚马逊云科技分别推出了用于训练的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。
以HuggingFace BERT模型作为案例来看,基于机器学习训练芯片Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。
而增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,实现对超大模型进行并行训练。
2019年推出了第一代用于机器学习的推理芯片Inferentia,所对应的实例Inf1和同样基于通用GPU的EC2实例相比,带来了70%成本的降低;2022年又推出了第二代推理芯片Inferentia2,进一步提升了4倍吞吐量,延迟只是之前的1/10,通过优化,第二代Inferentia可以大规模部署复杂的模型,例如大型语言模型和Diffusion类模型。
- Inferentia在设计的时候就考虑到了吞吐率和延迟的优化,使得用户两者可以“鱼与熊掌,两者兼得”;
- 以自然语言常见的BERT模型为例,In2实例的吞吐可以提升三倍,延迟降低了8.1倍,而成本只是通用GPU实例的1/4;
- 以开源模型OPT-30B为例,相比于通用GPU EC2的实例,In2实例吞吐率增加了65%,而推理成本则降低了52%,如果用更大的660亿参数的OPT-66B为例,通用GPU已经力不从心,但In2实例依然可以保持每秒351个token数的吞吐量;
- 视觉类模型以Stable Diffusion 2.1的版本为例,Inf2实例可实现50%的成本节约。
自研芯片为云端弹性资源供给提供更大的灵活度,陈晓建介绍:亚马逊云科技提供600多种不同的计算实例,从处理器、网络和存储等各种服务都能够与计算进行很好的结合,以积木的方式搭建出一个丰富灵活的计算实例的资源,满足多种不同算力的要求。
以存储为例,数据规模到达PB级别时存储方式变得非常重要,“热、温、冷、冻”不同类型的存储方式,成本和性能都有很大差别。Amazon S3对象存储提供8种存储层级,同时提供智能分层,自动选择最适合的存储层级。
算力也不是靠无限堆硬件来提升的,在”开源“的同时”节流“同样重要,马逊云科技在不断探索如何将云的弹性、敏捷性、按需付费的特性发挥到极致。
陈晓建继续展开:在这个过程中,我们逐步推动着云服务全面迈向Serverless。现在,亚马逊云科技已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码,帮助客户最大限度减轻运维工作,并增加业务敏捷性,更好地应对业务的各种不确定性。
生成式AI一定会成为长期话题,Matt Wood博士指出:技术能力往往遵循S曲线。你永远不知道你在S曲线上的位置,除非你向后看。希望明年再会的时候我们能够回顾一下在S曲线的头部有哪些新的点,另外我们在未来有哪些展望,我们希望在这个曲线上渐进的推动。我们相信明年回头看的时候,我们看到我们已经达到了S曲线的顶点,达到了快速爆发式发展的点,有很多的发明和应用。
但这个话题并不会代表全部,任何企业的基本盘都是不断创新。陈晓建针对国内出海企业谈到:越来越多的中国企业在全球大展拳脚,打造全球化的企业对IT架构提出更高要求。亚马逊云科技提供从中心到边缘的多种产品的解决方案,包括覆盖全球的基础架构,以及快速部署稳定系统的能力,还有全面支持全球各个国家和地区业务合规能力,成为用户创造坚实底层架构的基石。
为此,亚马逊云科技着力打造快速部署可靠系统的能力,包括:
- 区域隔离,多可用区设计:每个区域都会有多个可用区,任何单一可用区的故障不会影响到其他可用区的业务,最大限度降低服务的中断;
- 控制面和数据面解耦:更多地依靠数据面来保持服务运行、降低对控制面的依赖,能够提高整体稳定性;
- 蜂窝架构:把系统分割成多个微小的、单一的、相互之间隔离的蜂窝状单元,能够在问题出现时降低爆炸半径,通过爆炸半径能够把故障控制在一个单元以内;
- 随机分片:是对蜂窝架构的进一步优化。它把客户的访问随机分配到不同的单元中,说单个单元的故障并不会对整个系统造成影响,还是可以通过其他的单元完成;
- 服务责任模型:通过明确定义亚马逊云科技与客户责任区间的方式,保障客户在应用的任何阶段都能享有对所写代码和程序的控制权;
- 运营就绪审查:通过对亚马逊云科技大量运营案例进行分析,对过往的问题进行复盘,从而用户在整个部署的时候能够避免重现他们之前所发生的问题;
- 安全的持续部署:可以最大限度减少因错误部署而对生产造成的影响;
- COE纠错流程:了解问题所发生时候的系统状态,以防止类似的错误再次发生。
陈晓建引用亚马逊云科技CTO Werner Vogels所说“Everything fails, all the time”。他指出:所有的功能模块都有可能出故障,我们不能完全避免故障的发生,但是我们通过努力,把风险降到最低。
Matt Wood博士则强调了数据的重要价值,以及亚马逊云科技的三项战略:
首先,构建全面的工具集,满足现在和未来所需。亚马逊云科技推出15种专门构建的云上托管数据库服务,为各类用户的应用场景提供完美契合的数据服务;亚马逊云科技的分析服务已全面实现Serverless化,包括交互式查询服务Amazon Athena、大数据处理服务Amazon Managed Streaming for Apache Kafka (Amazon MSK)、实时分析服务Amazon Kinesis、数据仓库服务Amazon Redshift、数据集成服务Amazon Glue、商业智能服务Amazon QuickSight以及运营分析服务Amazon OpenSearch Service。
其次,通过轻松集成,连接所有数据。亚马逊云科技提出了Zero-ETL的愿景,致力于实现无缝的数据转换和调用,而用户不用编写任何的代码。亚马逊云科技最近推出了Aurora新的服务——Amazon Aurora可以与Amazon Redshift进行Zero-ETL集成,允许使用 Amazon Redshift 对来自Aurora的PB级事务数据进行近实时分析和机器学习 (ML)。事务数据在被写入Aurora后的几秒钟内,即可用在Amazon Redshift中,因此客户不必构建和维护复杂的数据管道来执行提取、转换和加载 (ETL) 操作。
再次,构建端到端的数据治理。通过数据治理,加速并保障数据流通。亚马逊云科技去年推出的一项全新的数据管理服务Amazon DataZone,可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。借助Amazon DataZone,管理员和数据资产管理者可以使用精细的控制工具管理和治理数据访问权限,确保数据访问发生在正确的权限和正确的情境之下。
演讲中,Matt Wood博士引用了科幻作家威廉·吉布森的名言“未来已至,只是还没有均匀分布”。他表示:亚马逊云科技始终希望将拥有广阔前景的且令人兴奋的技术提供给每个人,在云计算时代我们提供通过API访问云上应用的快捷访问,这一愿景不会因为生成式AI的出现而改变,我们希望将这项技术交到每一个构建者和每一个商业用户的手中。