S
SkillNav

当“造假”成为常态:AI时代的真实危机与基础设施转向

深度2026-03-03T08:01:30+00:0018 分钟阅读
当“造假”成为常态:AI时代的真实危机与基础设施转向

标题:[AINews] 在“人造”时代谈真实

摘要:一个相对平静的新闻日,反而让我们重新追问“现实”到底是什么。

内容:

“如果新闻都能是假的——那你想想历史会怎样。” — AmuseChimp via Naval

  1. 促成这篇社论的第一条新闻,是一则“非官方但可信”的消息:Cursor 现在已达到 $2B ARR,并且正在按 $50B 估值融资。这与过去 “Cursor 流失率正在飙升”的标题党叙事相矛盾。这个案例里,X 上出现了一个典型的 信息茧房:新奇和丑闻更容易被奖励,真相反而难以辨认。

  2. 第二条新闻是 Ars-Technica-Scott-Shambaugh 事件。说得直白点:这几乎是一次开源滥用、AI 爬虫机器人(Clawbots)与媒体失范叠加的“灾难现场”——报道此事的记者甚至发布了编造的 AI 引述,最终被解雇。更“加分”的是,人类评论者 幻觉式补充 了更多不实信息。

  3. 第三条是 某顶级播客的一期节目:它提出,发布产品的最佳方式是先做 20 条“假的”TikTok 应用演示视频,等视频先爆了,再去真正开发产品,而不是先做产品再营销。(我们最早在 the Hyperstitions of Moloch 讨论过这个思路;而且它显然是有效的。)

如果对这些趋势放任不管,最终结果会是:人们对所有媒体的信任持续下降,进而击碎“共识现实”,也就击碎公民社会——只要我能更大声地宣称“我的真相”,我就无需在意你认为什么是真的。

如果我们真能“用手指投票”,情况或许还不一样。死互联网理论 不完全由 AI 造成,但 AI 的确在加速它。我想到一个 老的社交媒体演化框架,大致是这样:

  • 在“社交媒体”之前,人们的新闻和娱乐主要来自杂志与报纸——这是面向大众分发的产品,几乎没有个性化。八卦主要靠线下口口相传,来自爱聊天的邻居或同事。

  • 你的朋友杀死了大众明星:后来 Facebook 出现了,你突然能看到 你认识/可能会认识的人 的动态,也能知道他们的各种八卦。显然有趣得多!

  • “职业朋友”杀死了真实朋友:你的真实朋友其实挺无聊。我发“今天午饭吃了啥”的 Instagram,当然不如把发帖当工作的人有看头:每张照片都滤镜拉满,每条 story 都脚本化。最擅长这套的 influencer 变成超级明星。所有人参与度都很高!但换个角度看,最大的一批 vlog 主之一 最终被证实……本来就是脚本演出,这很意外吗?

  • 推荐系统的长尾内容杀死了“职业朋友”:“职业朋友”的问题在于,他们和过去的大众明星犯的是同一类问题——最后都收敛到“对大多数人来说凑合够看”。而且还带来新问题:就算平台给他们千万级收入,他们 依然 产不出足够多内容;同时,他们又成了对平台有过强议价能力的“巨星”。于是平台开始不再优先你主动关注的关系图谱(stated preferences),转而持续喂给你最本能的冲动(revealed preferences)。参与度再跳一个台阶,创作者规模扩大 100 倍,每个人都拿到“爆红彩票”!

  • AI 内容杀死人类内容:最终阶段——用“个性化生成”取代“内容筛选”。每个人都活在自己亲手打造的《楚门的世界》牢笼里,开心地滑走自己的自由意志,以及和日常现实的连接。

我们显然每天都在更靠近这个终点——作为试图 Scale Without Slop 的新闻写作者,这正是我们在努力应对并寻找新解法的问题。

与此同时,“表达审美与人类投入”从未像今天这么容易被识别——差一点的 newsletter 可能会给你塞这样一张 AI 味很重的“流水线图”:

[

](https://substackcdn.com/image/fetch/$s_!rWog!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ffece9f9b-ad0f-4c98-ba44-f626e08739ae_2816x1536.jpeg)

但至少目前,真正有用的图,仍然需要人来做:

[

](https://substackcdn.com/image/fetch/$s_!KJxu!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb8a06c4f-f46a-4c91-ac81-445e5d85e20f_3164x1654.png)

2026/2/27-2026/3/2 的 AI News。我们替你检查了 12 个 subreddit、544 个 Twitter 账号 和 24 个 Discord(264 个频道、31899 条消息)。按 200wpm 估算,节省阅读时间 2895 分钟。AINews 官网 可检索所有往期。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你可以按需 订阅/退订 不同邮件频率!

Qwen 3.5 “small” 开源模型:长上下文 + 多模态端侧部署正在变成现实

  • Qwen3.5-0.8B / 2B / 4B / 9B 发布(Base + Instruct):阿里巴巴发布了这一紧凑系列,定位是“更高智能、更少算力”,具备 原生多模态scaled RL,明确面向 边缘设备 + 轻量 Agent 部署(Alibaba_Qwen)。社区传播重点包括 262K 原生上下文(可扩展至 1M) 以及推文中给出的竞争性分数(如“82.5 MMLU-Pro”“78.4 MMMU”“97.2 CountBench”)——在读到 model card 前,这些都应视为 厂商/二手口径kimmonismus)。

  • 架构讨论正在浮出水面:多条推文都指向 Qwen 往 混合 / 非正统 attention 路线移动;相较 Qwen3 更新里“Thinking vs Instruct”的区分,3.5 似乎回归“hybrid models”(nrehiew_)。更细的(但仍非官方)拆解称其采用 Gated DeltaNet hybrid:即“3 层 linear attention : 1 层 full attention”,以在控制内存占用的同时尽量保住质量(LiorOnAI)。

  • 工程落地跟进很快

    • Ollamaollama run qwen3.5:9b|4b|2b|0.8b,打包层已暴露 tool calling + thinking + multimodalollama, ollama)。

    • LM Studio:Qwen3.5-9B 被宣传为本地约 7GB 占用(Alibaba_Qwen)。

    • iPhone 端侧演示:Qwen3.5 2B 6-bit 配合 MLX 在“iPhone 17 Pro”运行,被包装为“边缘突破”(adrgrondin, kimmonismus)。

  • 评测者注意事项:小模型默认“关闭推理模式”;需通过 chat-template kwargs 显式开启(示例见 llama-server / Unsloth 文档)(danielhanchen)。

Coding Agent + 可靠性:以及“可用性才是新前线”

  • Codex 5.3 与 coding eval 讨论:有不少轶事称 Codex 5.3 在“有前景”的任务上表现突出,并在 WeirdML 等基准上推进(声称 79.3%,高于 Opus 4.6 的 77.9%),同时也有人指出 Gemini 的峰值表现可能仍更高(theo, htihle)。也有观点认为 WeirdML v2 已接近饱和(teortaxesTex)。

  • “我们快到可用性 1 个 9 了”:当前运维痛点不止模型质量,还包括 宕机 与体验退化;无论是 meme 还是严肃吐槽,主题都在重复:Claude 故障正在直接影响生产力(ThePrimeagen, Yuchenj_UW, Yuchenj_UW)。

  • Agent 可观测性 / 评测变成一等问题

    • “既然大家都成了 Agent manager,你最喜欢的 observability 方法是什么?”(_lewtun

    • Agent 可靠性是跨职能问题(你不能只靠工程手段逃离糟糕的评估标准;PM 和领域专家必须对成功定义负责)(saen_dev)。

    • 实操建议:先定义成功再动手;先用确定性 grader;风格类再引入 LLM judges;评估“产出物”而非“路径”(_philschmid)。

  • AGENTS.md / SKILL.md 是“护栏”,不是魔法

    • 一项被引用的 Codex 研究覆盖 10 个 repo / 124 个 PR:AGENTS.md 将 中位运行时缩短约 28.6%Token 降低约 16.6%,主要收益来自减少 最差情况的反复折腾,而非全局均匀提升(omarsar0)。

    • Carnegie Mellon 风格的 SKILL.md 生产改进闭环:“log → evaluate → monitor → improve”,并给出 OSS 示例(PR review bot)(gneubig)。

  • Anthropic 作为“coding 组织”的张力:一条病毒式数据点声称“80%+ 的已部署代码由 Claude Code 编写”,并伴随担忧:速度提升可能以 可靠性回退 为代价(GergelyOrosz)。另有讨论涉及 Claude Code 在大公司内部落地,以及“监督”替代手写编码(_catwu, Yuchenj_UW)。

基础设施 + 本地 AI 硬件:Apple Neural Engine 裂缝、macOS 上 Docker/vLLM,以及“AI 基建年”

  • 逆向 Apple Neural Engine 用于训练:一条高热线程称,有研究者借助未公开 API 在 ANE 上搭出了 transformer 训练循环,绕过 CoreML;重算子在 ANE,部分梯度仍在 CPU。还出现了诸如“M4 ANE 6.6 TFLOPS/W vs A100 的 0.08”“38 TOPS 是假象,真实吞吐 19 TFLOPS FP16”等效率说法——这些细节应回到 repo/paper 核验;但更重要的信号是:端侧训练/微调可能被打开AmbsdOP,生态补充 AmbsdOP;技术摘要 LiorOnAI)。

  • macOS 本地服务更顺滑:Docker Desktop 的 “Model Runner” 新增对 MLX models 的支持,并兼容 OpenAI-compatible API 工作流,被视为 Apple Silicon 开发闭环的实用解锁(Docker)。

  • 推理硬件分化:一篇 GPU vs Taalas HC 解读对比了 GPU 上“软件执行模型”(HBM 流式加载 + kernel 调度瓶颈)与“模型即硬件”ASIC(权重固化在 mask ROM);声称 HC1 可达 每用户 16–17k tok/s,代价是“一颗芯片 = 一个模型”(TheTuringPost)。

  • 开源性能工具:AMD 开源 rocprof-trace-decoder(SQTT trace 定义),支持更深层的指令级时序追踪;相关讨论将其描述为 AMD tracing 基础设施“优于 NVIDIA”(tinygrad)。

  • AI 基建成为战略主线:智谱提出“2026 是 AI infrastructure 之年”,更像口号而非规范定义;但与整体信号一致:可靠性 + 成本 + tooling 正在压过模型边际提升(Zai_org)。

新研究 + 基准:Transformer 缩放理论、MuP 边界问题、CUDA-kernel RL 与“胡扯检测”

  • Transformer 缩放理论回顾:论文 “Effective Theory of Wide and Deep Transformers”(Meta)被再次广泛传播。这是一份 60+ 页分析,覆盖前向/反向信号传播、宽度缩放规则、超参缩放、NTK 分析与优化器行为(SGD vs AdamW),并在视觉/语言 transformer 上做了验证(TheTuringPost, arXiv link tweet)。

  • 超越 MuP / Muon 的稳定性边角问题:讨论聚焦 Embedding / LM head / RMSNorm 层的稳定性指标,以及为何 embedding + LM head 可能“与 Muon 不太合拍”(Jianlin_S)。

  • CUDA Agent(字节跳动):被广泛视作从“能编译代码”迈向“高性能代码”的关键一步,采用 agentic RL + 真实 profiling 奖励。声称在 KernelBench 达到 SOTA、相对 torch.compile 提升显著,并在最难 kernel 上接近/比肩前沿 LLM(HuggingPapers, 深度线程 BoWang87)。

  • BullshitBench v2:基准更新新增 100 道题,覆盖 coding/medical/legal/finance/physics,测试 70+ 模型变体,并声称 推理反而常常有害;据称 Anthropic 模型领先,而 OpenAI/Google 在该基准上“没有改进”(petergostev, 讨论反馈 scaling01)。

  • Scheming eval realism:相关建议 tha

[... 内容已截断 ...]

原文链接:https://www.latent.space/p/ainews-truth-in-the-time-of-artifice

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟