ThoughtTrace:揭示用户在与LLM交互时的真实想法
深度2026年5月22日21 分钟阅读
最有趣的发现是:用户在与AI交互时产生的想法无法从对话上下文中直接推断,且内容多样、与对话阶段相关。本文适合从事人机交互、对话系统、用户建模及认知科学的研究人员阅读。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出HASP框架,将智能体技能升级为可执行程序函数,在推理时或训练后主动干预智能体循环。在网页搜索、数学推理和编程任务上,HASP相比现有方法提升25%-30%性能,揭示了技能内化与稳定演化的机制。
本文论证了交互式评估应被视为一种原则性的评估范式,而非仅仅是一类新的智能体基准。作者通过将评估定义为从证据到判断的自主映射,揭示了交互式评估如何改变了证据和评估过程两个方面,并提出了双轴分类法、设计原则和报告标准。这项工作有助于系统化碎片化的交互式评估实践,推动AI评估方法的发展。