微调 27B 开源模型,医疗转录任务超越 Claude Sonnet 4 60%

一句话总结: Parsed 使用 Together AI 的微调平台证明,小型开源模型经过严谨评估和任务特定优化,能在医疗转录等复杂现实任务上超越最大的闭源推理模型。他们的方法带来了 60% 更高的准确率、10-100 倍更低的推理成本,以及更高的透明度和可靠性。这次合作凸显了 Parsed 的深度评估专业知识和 Together AI 的低门槛、生产就绪微调技术栈。
传统观念的误区
认为开源大语言模型(LLM)必须在性能和能力之间做根本性权衡,这种传统观念源于过时的假设。早期的 LLM 比较显示,闭源模型大幅领先开源替代品。但 Chinchilla 缩放定律揭示,计算最优训练需要平衡参数与 token 的比例,而不是单纯堆参数,表明对于大多数任务,超过 700 亿参数后收益递减。更重要的是,当任务所需的生成分布足够受限时,专门为该分布优化的小型模型,可以超越比它大很多倍的模型。
Parsed 的研究团队构建了程序化、领域对齐的评估系统,将任务分解为细粒度检查,反映专家判断,并直接集成到模型训练和部署流程中。Parsed 的评估优先方法论——在开发模型或适配策略之前设计和实施评估框架——相比大实验室,能节省 50-80% 的推理成本,同时为客户提供更高质量的输出。对一些客户来说,这代表每年节省数百万美元。Parsed 平台使用这个评估系统驱动持续强化学习,这只有开源权重模型才能实现,因为需要完整的参数访问和算法灵活性。Parsed 团队还使用机制可解释性技术,将每个输出 token 归因回输入 token,提供模型行为的第一性原理解释。这让 Parsed 的模型不仅更便宜、性能更高,而且透明、可审计,并能随时间自我改进。
开源模型与任务特定推理
任务特定微调利用了基本原理:专用模型比通用模型需要更低的熵输出分布。当 270 亿参数模型为特定任务微调时,它能将全部表征能力集中在更窄的概率空间,相比通用推理,有效提升每参数比特效率 2-3 个数量级。这种专业化支持通用模型无法使用的激进优化策略,比如领域特定词汇优化。复合效应是显著的。例如,Parsed 微调 Gemma 3 27B 模型,在医疗用例(下文解释)上实现了比 Claude Sonnet 4 高 60% 的性能,同时每次推理所需计算量减少 10-100 倍。Parsed 在 Together.ai 的经验表明,这种性能并非异常;医疗、法律和科学领域的特定微调,持续显示比基础模型提升 40-100%。
成功挑战开源性能权衡的技术前提,集中在三个关键因素:高质量任务特定数据整理、严谨评估框架和迭代优化周期。成功的微调需要数万个高质量示例,具有一致的格式和任务分布的全面覆盖。
Together.ai 云上提供的技术栈,使组织能在专业任务上实现最先进的性能,同时相比大型闭源模型显著降低推理成本。
Parsed 医疗用例:转录员
Parsed 在医疗领域密切合作的一类客户是环境转录员,他们转录临床医生与患者的互动,并以该医生特定互动的风格撰写临床笔记。表面上这看似简单的总结问题,但有几个方面使其即使对最大的前沿模型也具有挑战性。
首先,转录可能长达几小时,意味着语言模型必须处理高达 30,000 个 token 的转录文本(不包括提示和其他信息),这导致质量下降、模型幻觉(Hallucination)增加、指令遵循度降低。其次,很难精确描述定义任务轮廓的多层嵌套指令和要求;例如,很难设定阈值来确定多少信息是相关的,特别是当医生可以选择不同细节级别时。最后,转录本身常包含错误(由于嘈杂的医生房间、复杂医学术语未被语音转文本模型妥善处理等),因此生成临床笔记的 LLM 必须能够推断拼写错误、错误引用、不正确语言,而不会对所说内容做出不合理跳跃。
幸运的是,通过正确的优化设置,所有这些问题都能解决。Parsed 现已与多个转录员合作。通过定义与专家人类评估临床笔记一致的严谨评估框架(Harness),他们既能构建最优化的监督微调(SFT)流程,又能使用评估框架本身作为强化学习(RL)的奖励模型。这两者都让 Parsed 以显著降低的成本超越最大前沿推理模型的性能。
Parsed 的高级评估方法论
医疗应用需要开发高度复杂的评估框架,远超标准评估方法。临床文档需要跨多个复杂、正交维度进行评估:临床合理性与安全性、对转录文本的源保真度、对就诊重要内容的覆盖与突出性,以及严格符合临床医生的模板和风格。一份笔记可能临床合理但遗漏重要患者主诉,或者捕捉每个细节但忽略提供者的格式和语气。
这些要求的复杂性需要构建先进的多层评估框架,能够以临床精度可靠评估每个维度。作为 Together AI 开发和评估定制模型的首选合作伙伴之一,Parsed 大力投资开发这些复杂的评估方法;他们创建了确保临床级模型性能的框架。
解决方案在于构建与临床专家判断一致的评估框架:这里指构建和使用转录产品的医生们。首先,Parsed 的前置部署团队与公司内的主题专家密切合作,精心定义错误模式,并建立专家用来判断该错误模式是否存在的精确决策点。这个过程需要 Parsed 进行大量数据分析和迭代优化,以构建真正反映临床理解复杂性的评估框架。
这使 Parsed 能将评估任务分解为细粒度、客观、确定性的二进制检查。Parsed 构建了一个标准展开,其中专用模型验证领域专家定义的各个层面:一个可能验证主观患者主诉是否被逐字保留,另一个可能确保鉴别诊断遵循临床医生的推理模式。这些二进制检查聚合成更高级别的指标——临床合理性与安全性、源保真度、覆盖与突出性、模板与风格保真度——再结合成单个框架分数。这让 Parsed 通过将每个 LLM 调用限制在非常具体的评估检查中(也允许他们使用更小模型并并行化),减少评估者内部和之间的差异。通过跟踪审查笔记的专家医生并编码他们的决策过程,评估框架成为实现快速迭代的基础事实。
Parsed 然后使用这个评估框架对现有模型进行基准测试,但更重要的是作为监督微调和强化学习优化的基础。对于强化学习,评估框架本身在训练期间用作奖励信号,这只有在通过构建严谨评估系统(而非单一评估提示)减少噪声和不一致性时才有可能。
最终结果
Parsed 首先专注于监督微调,以使开源模型性能超过像 Gemini-2.5-Pro 和 O3 这样的思考模型。虽然他们随后进行持续强化学习,随时间推移随着更多数据输入而复合这种改进,但仅监督微调步骤就值得客户用专门为其任务优化的更小模型替换大型通用模型。这里以 Parsed 微调 Gemma 3 27B(初始测试中性能最差的模型)为例。
微调前: 对于临床转录任务,Parsed 将基线设为 Sonnet 4(临床转录公司常用模型)的性能,并用评估框架对 Gemma 3 27B 进行基准测试。不出所料,Gemma(一个更小的模型)在评估框架上表现差 35%。强大的开源基线明显低于 Sonnet 4:Qwen-32B 低约 15%,Llama-3.3-70B 低约 12%,DeepSeek-V3 低约 10%。在闭源通用模型中,GPT-4.1 比 Sonnet 4 好约 15%,Gemini-2.5-Pro 接近 25%。
微调后: 然而,在数万个框架优化示例上微调 Gemma 3 27B 后,结果发生了转变:微调模型比 Claude Sonnet 4 高出 60%。它不仅更好,而且作为更小的模型,速度显著更快、成本更低。
Parsed 然后可以为客户专门部署这个更小、微调的模型,提供比大实验室更高的可靠性。

这里,通过率定义为所有四个单独二进制检查都通过的示例比例。
Together AI 的微调平台为监督微调、直接偏好优化(DPO)和持续微调工作流提供全面工具,支持全微调和 LoRA 微调。训练后,模型无缝从训练过渡到生产,即时部署到企业就绪的推理堆栈。
通过与 Parsed 等专业提供商的合作,Together AI 提供完整的解决方案堆栈——结合可靠直观的微调平台与需要最高准确性和合规性标准的行业特定专业知识。这种合作模式使各行业组织能在专业任务上实现卓越性能,同时保持对其 AI 部署的完全控制,解锁超越一刀切通用模型的成本节省和质量改进。
觉得有用?分享给更多人