Transformer注意力沉没:利用、解释与缓解综述
深度2026年4月15日229 分钟阅读
研究发现注意力沉没现象会严重影响Transformer的训练推理动态并加剧幻觉问题,本文为理解和应对这一挑战提供了全面指导。该综述适合从事Transformer架构研究、自然语言处理及模型可解释性工作的研究人员阅读。
本文编译自 Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation,版权归原作者所有。
觉得有用?分享给更多人