Cloudflare 无损压缩 LLM 权重 22%
深度2026年4月17日8 分钟阅读

Cloudflare 推出 Unweight 系统,在 GPU 上无损压缩 LLM 权重,模型体积减少 15-22%,推理速度提升。核心突破在于将解压与张量计算在片上内存中融合,避免主内存瓶颈。
觉得有用?分享给更多人

觉得有用?分享给更多人
文章讨论了 AI 行业圈内与圈外差距的扩大,OpenAI 的收购狂潮,以及 Anthropic 的模型策略。播客还涵盖了芯片投资、数据中心初创公司和 Claude Code 在会议上的表现等话题。
Claude Opus 4.7 在 SWE-Bench Pro 等多项编码基准测试中提升显著,最高达 11 分。模型支持高达 2576 像素的长边图像输入,视觉能力大幅增强。尽管新分词器可能导致 token 使用量增加 35%,但推理效率的提升使整体 token 成本仍可能下降一半。