九游体育世界杯中国官网首页

九游体育世界杯中国官网首页 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后检会框架

发布日期:2026-05-28 02:34    点击次数:169

九游体育世界杯中国官网首页 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后检会框架

VeRL-Omni 是一个面向多模态生成模子的通用 RL 后检会框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。隐敝扩散 transformer(Qwen-Image)、夹杂 AR-DiT(Qwen-Omni)、协调聚拢 + 生成(BAGEL、HunyuanImage-3.0)等架构。

多模态 rollout 走 vLLM-Omni 的异步高蒙眬 serving,VLM-as-judge / OCR 奖励模子走 vLLM 推理,并与 rollout、检会 overlap。Qwen-Image OCR FlowGRPO 演示中,把奖励模子放到自在 GPU 可将每步 wall-clock 时辰缩小约 14%。

VeRL-Omni 架构

代码: github.com/verl-project/verl-omni

文档: verl-omni.readthedocs.io

vLLM 官方博客:vllm.ai/blog/verl-omni

为什么需要 VeRL-Omni

RL 仍是成为把大型生成模子对都到东说念主类偏好与卑鄙任务奖励的有劲妙技。曩昔一年 LLM 的 RL 检会栈赶紧演进,但多模态生成 RL—— 隐敝图像 / 视频 / 音频聚拢与生成的扩散和全模态模子 —— 还有几个关节缺口:

扩散与全模态蔓延:把 verl 的生动性和性能延迟到多模态、非自追想 RL 检会的寰宇,包括扩散 transformer 骨干(Qwen-Image)、夹杂 AR-DiT 架构(Qwen-Omni)、协调聚拢 + 生成模子(BAGEL、HunyuanImage-3.0);

异构 rollout 活水线:Rollout 是连气儿 latent 空间里的去噪轨迹,而不是 token 序列;单次 rollout 还可能调用多个异构模子组件、走多阶段活水线(text encoder → DiT → VAE);

复杂的负载调和:多模态 RL 检会的奖励函数自身便是多模态模子(VLM judge、OCR scorer 等),多模态生成 rollout 的峰值显存又比文本生成高得多,把这些使命流编排好并不简便。

关节特点

高效的多模态 rollout: 集成 vLLM-Omni 的异步高蒙眬多模态生成 serving,精度与 diffusers 合手平。VeRL-Omni 与 vLLM-Omni 协同,通过 step-wise continuous batching、embedding caching 等合手续优化 rollout 效果。

生动的奖励引擎: 同期撑合手基于四肢的奖励与基于模子的奖励(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 奖励模子推理。奖励沟通与 rollout、检会过程 overlap,缩小端到端延迟。

模块化检会后端: 提供多种 trainer(DiffusersFSDP / Megatron / VeOmni),针对扩散和全模态模子内置优化,便于接入不同并行战略(FSDP / USP / TP)。

鄙俚的硬件兼容: 同期撑合手 NVIDIA GPU 和昇腾 NPU,开运中国app官方手机版部署可在多种硬件后端之间生动切换。

端到端检会 recipe 与基准: 提供参考性能为止;收获于上述特点,检会蒙眬不错作念得很高。

算法与模子撑合手

上手指南

装配

详见装配文档:

https://verl-omni.readthedocs.io/en/latest/start/install.html

检会扩散模子

examples 目次(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的启动剧本,隐敝图像 / 音频 / 视频聚拢与生成任务。检会性能与为止不错通过 wandb 追踪。

Demo:Qwen-Image FlowGRPO 后检会

在 flowgrpo 示例中,团队用 OCR 奖励任务检会 Qwen-Image。奖励模子弃取 Qwen3-VL-8B-Instruct,通过读取生成图像里的渲染翰墨、与数据集 ground truth 比对,对生成图像评分。

flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法追想

FlowGRPO 算法暗示

FlowGRPO 暗示

FlowGRPO 是面向 flow-matching 模子的在线战略神志。它通过 diffusion policy 模子作念多步 SDE 采样以已矣高效 RL 探索,并弃取基于模子的奖励评估生成质料。

检会过程主要分四步:

Rollout 生成: 扩散 policy 模子生成样本 rollout,九游·体育世界杯(中国)官方网站网罗 log probability 和生成图像的轨迹。

奖励模子打分:奖励模子给每个生成样本打分,用于沟通 trajectory advantage。

战略优化:用 FlowGRPO CLIP-style loss 更新战略,基于 advantage 优化奖励。

权重同步:按时把 trainer 最新的战略权重同步到 rollout worker,确保生成样本反应最新战略。

LoRA 微调

HG真人游戏官方网站

NVIDIA H800 GPU 上的检会蒙眬如下:

把奖励模子放到自在 GPU 上,与战略检会 overlap,每步 wall-clock 时辰缩小约 14%。

全模子微调

团队还考证了 non-CFG 全模子 Qwen-Image OCR 检会,在 4×NVIDIA H200 上达到 0.510 images/GPU/s,每步约 250 s。

底下不错看到,仅 120 步检会后,生成图像的翰墨渲染质料已有显赫进步。

底下是参考检会弧线,critic reward 与 validation reward 都拘谨相识。

完好检会目的说卓见 Training Metrics 文档。

文档地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后续阶梯图

VeRL-Omni 仍处于活跃迭代的预发布阶段,扩散 RL 中枢栈仍是相识。阶梯图聚焦在蔓延模子 / 算法撑合手,并连接激动高效多模态 RL 检会的畛域。

模子撑合手蔓延: 跟进开源的扩散和全模态模子,隐敝图像 / 视频 / 音频生成任务以及协调聚拢 + 生成任务;

算法撑合手蔓延: 合手续集成相识、先进的 RL 算法(如 DiffusionNFT);

全异步 RL: 在 actor、rollout、reward 之间走端到端异步活水线,超出面前的异步奖励限制,进一步进步检会蒙眬和 GPU/NPU 诳骗率;

与 vLLM-Omni 协同优化: 生成 rollout 在检会时辰中占比很大,将通过更精雅的 vLLM-Omni 集成(并行、量化、batching、调和优化等)连接加快多模态 rollout;

高效全模态 trainer: 在 DiffusersFSDPTrainer 除外,有筹商放出更多针对全模态与扩散模子的高度优化 trainer 引擎,基于 Megatron-core 与 VeOmni;

更广的硬件撑合手: 连接打磨昇腾 NPU 旅途,并通过 hardware plugin 系统接待更多硬件后端。

扩散和全模态 RL 后检会仅仅个启动。VeRL-Omni 团队正在合手续撑合手更多架构与算法九游体育世界杯中国官网首页,接待一说念塑造改日。






Copyright © 1998-2026 九游体育世界杯中国官网首页™版权所有

leberrobot.com备案号 备案号: 

技术支持:®九游体育世界杯 RSS地图 HTML地图