智畅行科技资讯网
首页 > 智能 > 苹果英伟达合作开源ReDrafterLLM推理速度飙升27倍

苹果英伟达合作开源ReDrafterLLM推理速度飙升27倍

苹果公司近期宣布与英伟达携手合作,共同推出了一项名为Recurrent Drafter(简称ReDrafter)的创新技术,这项技术旨在显著提升人工智能大语言模型(LLM)的推理速度。这一消息是在12月18日通过苹果公司的官方博文发布的。

据悉,ReDrafter技术已经成功融入英伟达的TensorRT-LLM推理加速框架中。这一整合使得在英伟达GPU上运行的LLM模型,每秒生成的tokens数量最高可提升2.7倍。这一显著的性能提升,不仅有效减少了用户在使用过程中的延迟感受,还大幅度降低了计算成本。

苹果公司的机器学习专家强调,随着LLM在生产应用程序中的广泛应用,提高推理效率已经成为降低计算成本和减少用户延迟的关键因素。ReDrafter技术的推出,正是对这一需求的积极响应。

ReDrafter的核心在于其独特的RNN草稿模型,该模型结合了波束搜索(beam search)和动态树注意力(dynamic tree attention)技术。这一创新设计使得开源模型在每一步生成过程中最多可以产生3.5个tokens,从而超越了以往推测性解码技术的性能表现。

为了将ReDrafter技术应用于实际生产环境,苹果公司与英伟达展开了深度合作。双方共同努力,将ReDrafter成功集成到英伟达的TensorRT-LLM框架中。这一合作不仅展现了苹果与英伟达在技术创新方面的深厚实力,也体现了双方在推动AI技术发展方面的共同愿景。

为了支持ReDrafter技术的集成,英伟达对其TensorRT-LLM框架进行了多项优化。这包括添加新的运算符以及公开现有运算符,以增强框架对复杂模型和解码方法的适应能力。这些优化措施为ReDrafter技术的顺利应用提供了有力保障。

基准测试结果显示,在使用集成了ReDrafter的TensorRT-LLM框架的英伟达GPU上,数百亿参数规模的生产模型的解码速度得到了显著提升,最高可达2.7倍。这一成果不仅显著降低了用户体验延迟,还减少了GPU的使用数量和功耗,从而进一步降低了运营成本。

这一合作成果的发布,标志着苹果与英伟达在AI技术领域的合作迈出了重要一步。未来,双方将继续携手共进,共同推动AI技术的创新与发展,为更多用户提供更加高效、智能的服务。

标签:

上一篇 目录 下一章

猜你喜欢

智能工厂和数字化车间 马斯克点赞中国...
特斯拉首席执行官埃隆·马斯克在近期摩根士丹利科技会议的线上发言中,提出了一个引人瞩目的观点:他建议将美国邮政服务和美国国家铁路客运公司私有化。在阐述这一立...
智能机器人完整版电影 比亚迪全新e7...
比亚迪近期在网络上曝光了其即将推出的全新车型——e7的内饰谍照,这款基于e平台3.0精心打造的紧凑型纯电轿车,预计将于2025年正式上市,并计划在比亚迪的...
人工智能(ai) 高通推出全球领...
“ 高通技术公司持续树立连接新标杆,公司宣布推出高通® X85 5G调制解调器及射频,这是公司第八代5G调制解调器到天线的解决方案,也...
硅胶仿真机器人价格 上汽大通G50...
上汽大通近日正式预售其2025款G50混动版车型,这款新车以15.28万元的预售价格进入市场,吸引了众多消费者的目光。作为大通G50 MAX车型的衍生版本...

强力推荐