百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化

ztj100 2025-02-11 14:26 6 浏览 0 评论


Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。ReDrafter 帮助开发者大幅提升了 NVIDIA GPU 上的 LLM 工作负载性能。NVIDIA TensorRT-LLM 是一个 LLM 推理优化库,提供了一个易于使用的 Python API 来定义 LLM 和构建 NVIDIA TensorRT 引擎,这些引擎具有顶尖的优化功能,可在 GPU 上高效执行推理。优化功能包括自定义 Attention Kernel、Inflight Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。


推测解码 (Speculative decoding) 是一种通过并行生成多个 token 来加速 LLM 推理的技术。它使用较小的“draft”模块预测未来的 token,然后由主模型进行验证。该方法通过更好地利用可用资源实现低延迟推理,在保持输出质量的同时大大缩短了响应时间,尤其是在低流量时段。


ReDrafter 运用基于循环神经网络 (RNN) 的采样 (称为 Drafting) 并结合之前在 Medusa 等其他技术中使用的树状注意力,预测和验证来自多个可能路径的 draft token 以提高准确性,并在解码器的每次迭代中接受一个以上 token。NVIDIA 与苹果公司合作,在 TensorRT-LLM 中添加了对该技术的支持,使更加广泛的开发者社区能够使用该技术。


ReDrafter 与 TensorRT-LLM 的集成扩大了该技术的覆盖范围,解锁了新的优化潜力,并改进了 Medusa 等先前的方法。Medusa 的路径接受和 token 采样发生在 TensorRT-LLM 运行时,需要在接受路径未知的情况下处理所有可能的未来路径,而且其中大部分路径最终都会被丢弃,这就给引擎内部带来了一些开销。为了减少这种开销,ReDrafter 要求在 drafting 下一次迭代的未来 token 之前,先验证 token 并接受最佳路径。


为了进一步减少开销,TensorRT-LLM 更新后在单个引擎中整合了 drafting 和验证逻辑,不再依赖运行时或单独的引擎。这种方法为 TensorRT-LLM 内核选择和调度提供了更大的自由度,通过优化网络实现了性能的最大化。


为了更好地说明 ReDrafter 的改进,图 1 展示了 TensorRT-LLM 中 ReDrafter 实现与 Medusa 实现的主要区别。大多数与推测解码相关的组件都在 ReDrafter 的引擎内完成,这大大简化了 ReDrafter 所需的运行时更改。


图 1. NVIDIA TensorRT-LLM 中

Medusa(上)和 ReDrafter(下)实现的比较


下面将深入探讨有助于在 TensorRT-LLM 中启用 ReDrafter 的一些变化。


兼容 Inflight-batching

批处理的引擎


Inflight-batching (IFB) 是一种通过批量处理上下文阶段和生成阶段请求,来显著提高吞吐量的策略。鉴于上下文阶段请求与生成阶段请求的处理方式不同(生成阶段请求需要 draft token 验证),因此结合 IFB 的推测解码会给管线带来更大的复杂性。ReDrafter 将验证逻辑移至模型定义内部,因此引擎在验证过程中也需要该逻辑。与注意力插件类似,该批处理被分成两个较小的批处理:一个用于上下文请求,另一个用于生成请求。然后,每个较小的批处理进入计算工作流,最后再合并成一个批处理进行 drafting 流程。


图 2. ReDrafter 兼容 TensorRT-LLM 引擎的

Inflight-batching 批处理计算工作流


请注意,这种方法要求任一路径上的所有运算符都支持空张量。如果一个批处理由所有上下文请求或所有生成请求组成,就可能出现空张量。该功能增加了 TensorRT-LLM API 的灵活性,使未来定义更复杂的模型成为可能。


实现引擎内验证和 Drafting


为了在引擎内进行验证和 draft,TensorRT-LLM 更新时加入了对许多新操作的支持,这样 PyTorch 代码就可以轻松地转化成一个 TensorRT-LLM 模型的定义。


以下 PyTorch 代码摘录是苹果公司的 PyTorch 实现的 ReDrafter。TensorRT-LLM 实现几乎就是 PyTorch 版本的直接逐行映射。


PyTorch

Bash
def unpack(
    packed_tensor: torch.Tensor,
    unpacker: torch.Tensor,
) -> torch.Tensor:
    assert len(packed_tensor.shape) == 3
    last_dim_size = packed_tensor.shape[2]
    batch_size, beam_width, beam_length = unpacker.shape
    unpacked_data_indices = unpacker.view(
        batch_size, beam_width * beam_length, 1).expand(
        -1, -1, last_dim_size
    )
    unpacked_tensor = torch.gather(
        packed_tensor, 1, unpacked_data_indices).reshape(
        batch_size, beam_width, beam_length, -1
    )
    return unpacked_tensor


TensorRT-LLM

Bash
def _unpack_beams(
    x: Tensor,
    indices: Tensor,
    num_beams: int,
    beam_length: int
) -> Tensor:
    assert x.rank() == 3
    d0 = shape(x, 0, INT_DTYPE_STR)
    dl = shape(x, -1, INT_DTYPE_STR)
    indices = view(
        indices, [-1, num_beams * beam_length, 1], False)
    res_shape = concat([d0, num_beams, beam_length, dl])
    res = view(gather_nd(x, indices), res_shape, False)
    return res


当然,这只是一个非常简单的例子。如要了解更复杂的示例,请参见束搜索实现。借助为 ReDrafter 添加的新功能,就可以改进 TensorRT-LLM 中的 Medusa 实现,从而进一步提高其性能。


ReDrafter

在 TensorRT-LLM 中的性能


根据苹果公司的基准测试,在采用 TP8 的 NVIDIA GPU 上使用 TensorRT-LLM 的 ReDrafter 最多可将吞吐量提高至基础 LLM 的 2.7 倍。


请注意,任何推测解码技术的性能提升幅度都会受到诸多因素的大幅影响,包括:


  • GPU 利用率:推测解码通常用于低流量场景,由于批量较小,GPU 资源的利用率通常较低。


  • 平均接受率:由于推测解码必须执行额外的计算,而其中很大一部分计算最终会在验证后被浪费,因此每个解码步骤的延迟都会增加。所以要想通过推测解码获得任何性能上的优势,平均接受率必须高到足以弥补增加的延迟。这受到束数量、束长度和束搜索本身质量(受训练数据影响)的影响。


  • 任务:在某些任务(例如代码完成)中预测未来的 token 更容易,使得接受率更高,性能也会因此而提升。


总结


NVIDIA 与苹果公司的合作让 TensorRT-LLM 变得更加强大和灵活,使 LLM 社区能够创造出更加复杂的模型并通过 TensorRT-LLM 轻松部署,从而在 NVIDIA GPU 上实现无与伦比的性能。这些新特性带来了令人兴奋的可能性,我们热切期待着社区使用 TensorRT-LLM 功能开发出新一代先进模型,进一步改进 LLM 工作负载。


探索 NVIDIA TensorRT-LLM,在 NVIDIA GPU 上充分释放模型潜能:

https://docs.nvidia.com/tensorrt-llm/index.html

相关推荐

配置Java环境变量:(WIN7为例)(java1.7配置环境变量)

1.JAVA_HOME变量的设置2.Path变量的设置3.ClassPath变量的设置二、JDK安装群文件下载好之后,进入文件夹,双击根据提示进行安装,直至安装完成。(建议默认地址,一下以默认...

JDK的下载安装与环境变量的配置(jdk安装教程及环境变量配置win10)

一、JDK下载1.jdk下载地址官网https://www.oracle.com2.选择Products3.选择Java4.选择JavaSE,进入OracleJDK5.根据需要选择版本6.我所...

linux java 项目 设置外部yml 设置jvm 并添加启动停止以及重启脚本

linux安装jdk1.8jdk1.8可私聊我发给你1.在/usr/local下用mkdir新建了一个文件夹java然后把文件上传到java里面...

JDK1.8安装&环境变量配置(jdk怎么安装环境变量)

1、下载并安装JDK1.8链接:https://pan.baidu.com/s/1bfceFjfTQvLylu7a3T7fyg?pwd=ydtm...

Java 技术文档(详细版)(java文档教程)

1.简介Java是一种面向对象的编程语言,由SunMicrosystems于1995年发布,现由Oracle公司维护。其核心特点是“一次编写,到处运行”,这得益于Java虚拟机(...

JavaJDK环境变量配置(javajdk环境变量配置不用配置路径吗)

1.Java环境搭建1.1JDK与JREJDK(JavaDevelopmentKitJava开发工具包)JDK是提供给Java开发人员使用的,其中包含了java的开发工具,也包括了JRE。所...

Java编程从零开始 01Java的安装和配置

点击右上角,加关注,私信“项目课程”,即可获得高并发分布式电商项目以及适合初学者的网盘项目课程视频和源码哦...

《我的世界》服务器搭建(搭建我的世界服务器配置要求)

1.CentOS7环境1.1更改YUM源...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装java...

Java基础篇——环境配置(java环境搭建及配置教程)

Java语言简介Java语言源自于Oracle-Sun公司,是当今最通用、最流行的软件开发语言之一。Java是简单的、面向对象的语言,最大的特性是与平台无关,有“writeonce,runeve...

Java路径-02-Java环境配置(java环境变量配置路径)

1Window环境配置1.1下载...

JDK的安装与环境变量的配置(jdk安装好如何配置环境变量?用什么符合隔开?)

JDK的安装与环境变量的配置1.jdk的安装:jdk的安装,傻瓜式安装,一路下一步jdk中的两个文件夹libbin...

Centos8搭建Java环境(JDK1.8+Nginx+Tomcat9+Redis+Mysql)

一、开篇1.1目的每次换新的服务器,都要找资料配下环境,所以我写这篇文章,重新梳理了一下,方便了自己,希望也能给大家带来一些帮助。安装的软件有:JDK1.8+Nginx+Tomcat9+...

Windows系统——配置java环境变量

怎么配置java环境变量呢?首先是安装好jdk然后我的电脑右键选择属性然后选择左侧高级系统设置高级然后点环境变量...

程序员:JDK的安装与配置(完整版)(jdk的安装与配置使用)

对于Java程序员来说,jdk是必不陌生的一个词。但怎么安装配置jdk,对新手来说确实头疼的一件事情。我这里以jdk10为例,详细的说明讲解了jdk的安装和配置,如果有不明白的小伙伴可以评论区留言哦...

取消回复欢迎 发表评论: