记忆增强动态奖励塑形：减少重复错误，提升采样多样性

深度2026年4月15日18 分钟阅读

研究发现通过记忆增强的动态奖励机制，可以有效识别并惩罚重复出现的错误模式，从而显著提升模型性能和行为多样性。这篇论文适合研究强化学习、语言模型优化以及探索-利用平衡问题的研究人员阅读。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

Qwen3.6-35B-A3B 量化模型在 MacBook Pro 上生成的鹈鹕骑自行车 SVG，在自行车框架形状等细节上优于 Anthropic 新发布的 Claude Opus 4.7。作者指出，这个玩笑测试虽与模型通用能力不完全相关，但反映了当前模型比较的荒诞性。

深度Simon Willison·4月16日·3 分钟

本文提出BERT-as-a-Judge方法，通过轻量级训练实现生成式输出的语义评估。该方法在36个模型和15个任务上验证，性能优于传统词法方法且接近大型LLM评判者。这为语言模型评估提供了可靠且可扩展的解决方案。

深度·4月16日·14 分钟

相关文章