LIBERO-Para:VLA模型复述鲁棒性诊断基准与度量
深度2026年3月30日26 分钟阅读
最有趣的发现是:即使简单的同义词替换也会导致VLA模型性能大幅下降,且80-96%的失败源于任务规划层面的轨迹分歧而非执行错误。本文适合研究视觉-语言模型、机器人指令理解、模型鲁棒性评估的研究人员和工程师阅读。
本文编译自 LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models,版权归原作者所有。
觉得有用?分享给更多人