vLLM V0 到 V1 迁移:先修推理正确性,再改 RL 目标
深度Hugging Face2026年5月6日12 分钟阅读
ServiceNow-AI 团队在将 PipelineRL 从 vLLM V0 迁移到 V1 时,发现训练指标出现严重偏差。他们通过修复 logprob 语义、运行时默认值和权重同步路径,最终让 V1 匹配了 V0 的轨迹——关键教训是先修复后端正确性,再调整 RL 目标。
本文编译自 vLLM V0 to V1: Correctness Before Corrections in RL,版权归原作者所有。
觉得有用?分享给更多人