PostTrainBench:大模型能自主微调其他模型吗?
深度2026年3月16日5 分钟阅读

PostTrainBench 基准测试显示,Claude Opus 4.6 代理在微调任务上得分达到 23.2%,是基准模型平均水平的 3 倍,但仍远低于人类团队的 51.1%。同时,分布式训练项目 Covenant-72B 成功训练出媲美 LLaMA2 的模型,挑战了集中式 AI 开发模式。
本文编译自 ImportAI 449: LLMs training other LLMs; 72B distributed training run; computer vision is harder than generative text,版权归原作者所有。
觉得有用?分享给更多人