当“造假”成为常态:AI时代的真实危机与基础设施转向

标题:[AINews] 在“人造”时代谈真实
摘要:一个相对平静的新闻日,反而让我们重新追问“现实”到底是什么。
内容:
“如果新闻都能是假的——那你想想历史会怎样。” — AmuseChimp via Naval
-
促成这篇社论的第一条新闻,是一则“非官方但可信”的消息:Cursor 现在已达到 $2B ARR,并且正在按 $50B 估值融资。这与过去 几 周“Cursor 流失率正在飙升”的标题党叙事相矛盾。这个案例里,X 上出现了一个典型的 信息茧房:新奇和丑闻更容易被奖励,真相反而难以辨认。
-
第二条新闻是 Ars-Technica-Scott-Shambaugh 事件。说得直白点:这几乎是一次开源滥用、AI 爬虫机器人(Clawbots)与媒体失范叠加的“灾难现场”——报道此事的记者甚至发布了编造的 AI 引述,最终被解雇。更“加分”的是,人类评论者 也 幻觉式补充 了更多不实信息。
-
第三条是 某顶级播客的一期节目:它提出,发布产品的最佳方式是先做 20 条“假的”TikTok 应用演示视频,等视频先爆了,再去真正开发产品,而不是先做产品再营销。(我们最早在 the Hyperstitions of Moloch 讨论过这个思路;而且它显然是有效的。)
如果对这些趋势放任不管,最终结果会是:人们对所有媒体的信任持续下降,进而击碎“共识现实”,也就击碎公民社会——只要我能更大声地宣称“我的真相”,我就无需在意你认为什么是真的。
如果我们真能“用手指投票”,情况或许还不一样。死互联网理论 不完全由 AI 造成,但 AI 的确在加速它。我想到一个 老的社交媒体演化框架,大致是这样:
-
在“社交媒体”之前,人们的新闻和娱乐主要来自杂志与报纸——这是面向大众分发的产品,几乎没有个性化。八卦主要靠线下口口相传,来自爱聊天的邻居或同事。
-
你的朋友杀死了大众明星:后来 Facebook 出现了,你突然能看到 你认识/可能会认识的人 的动态,也能知道他们的各种八卦。显然有趣得多!
-
“职业朋友”杀死了真实朋友:你的真实朋友其实挺无聊。我发“今天午饭吃了啥”的 Instagram,当然不如把发帖当工作的人有看头:每张照片都滤镜拉满,每条 story 都脚本化。最擅长这套的 influencer 变成超级明星。所有人参与度都很高!但换个角度看,最大的一批 vlog 主之一 最终被证实……本来就是脚本演出,这很意外吗?
-
推荐系统的长尾内容杀死了“职业朋友”:“职业朋友”的问题在于,他们和过去的大众明星犯的是同一类问题——最后都收敛到“对大多数人来说凑合够看”。而且还带来新问题:就算平台给他们千万级收入,他们 依然 产不出足够多内容;同时,他们又成了对平台有过强议价能力的“巨星”。于是平台开始不再优先你主动关注的关系图谱(stated preferences),转而持续喂给你最本能的冲动(revealed preferences)。参与度再跳一个台阶,创作者规模扩大 100 倍,每个人都拿到“爆红彩票”!
-
AI 内容杀死人类内容:最终阶段——用“个性化生成”取代“内容筛选”。每个人都活在自己亲手打造的《楚门的世界》牢笼里,开心地滑走自己的自由意志,以及和日常现实的连接。
我们显然每天都在更靠近这个终点——作为试图 Scale Without Slop 的新闻写作者,这正是我们在努力应对并寻找新解法的问题。
与此同时,“表达审美与人类投入”从未像今天这么容易被识别——差一点的 newsletter 可能会给你塞这样一张 AI 味很重的“流水线图”:
[

但至少目前,真正有用的图,仍然需要人来做:
[

2026/2/27-2026/3/2 的 AI News。我们替你检查了 12 个 subreddit、544 个 Twitter 账号 和 24 个 Discord(264 个频道、31899 条消息)。按 200wpm 估算,节省阅读时间 2895 分钟。AINews 官网 可检索所有往期。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你可以按需 订阅/退订 不同邮件频率!
Qwen 3.5 “small” 开源模型:长上下文 + 多模态端侧部署正在变成现实
-
Qwen3.5-0.8B / 2B / 4B / 9B 发布(Base + Instruct):阿里巴巴发布了这一紧凑系列,定位是“更高智能、更少算力”,具备 原生多模态 与 scaled RL,明确面向 边缘设备 + 轻量 Agent 部署(Alibaba_Qwen)。社区传播重点包括 262K 原生上下文(可扩展至 1M) 以及推文中给出的竞争性分数(如“82.5 MMLU-Pro”“78.4 MMMU”“97.2 CountBench”)——在读到 model card 前,这些都应视为 厂商/二手口径(kimmonismus)。
-
架构讨论正在浮出水面:多条推文都指向 Qwen 往 混合 / 非正统 attention 路线移动;相较 Qwen3 更新里“Thinking vs Instruct”的区分,3.5 似乎回归“hybrid models”(nrehiew_)。更细的(但仍非官方)拆解称其采用 Gated DeltaNet hybrid:即“3 层 linear attention : 1 层 full attention”,以在控制内存占用的同时尽量保住质量(LiorOnAI)。
-
工程落地跟进很快:
-
Ollama:
ollama run qwen3.5:9b|4b|2b|0.8b,打包层已暴露 tool calling + thinking + multimodal(ollama, ollama)。 -
LM Studio:Qwen3.5-9B 被宣传为本地约 7GB 占用(Alibaba_Qwen)。
-
iPhone 端侧演示:Qwen3.5 2B 6-bit 配合 MLX 在“iPhone 17 Pro”运行,被包装为“边缘突破”(adrgrondin, kimmonismus)。
-
-
评测者注意事项:小模型默认“关闭推理模式”;需通过 chat-template kwargs 显式开启(示例见 llama-server / Unsloth 文档)(danielhanchen)。
Coding Agent + 可靠性:以及“可用性才是新前线”
-
Codex 5.3 与 coding eval 讨论:有不少轶事称 Codex 5.3 在“有前景”的任务上表现突出,并在 WeirdML 等基准上推进(声称 79.3%,高于 Opus 4.6 的 77.9%),同时也有人指出 Gemini 的峰值表现可能仍更高(theo, htihle)。也有观点认为 WeirdML v2 已接近饱和(teortaxesTex)。
-
“我们快到可用性 1 个 9 了”:当前运维痛点不止模型质量,还包括 宕机 与体验退化;无论是 meme 还是严肃吐槽,主题都在重复:Claude 故障正在直接影响生产力(ThePrimeagen, Yuchenj_UW, Yuchenj_UW)。
-
Agent 可观测性 / 评测变成一等问题:
-
“既然大家都成了 Agent manager,你最喜欢的 observability 方法是什么?”(_lewtun)
-
Agent 可靠性是跨职能问题(你不能只靠工程手段逃离糟糕的评估标准;PM 和领域专家必须对成功定义负责)(saen_dev)。
-
实操建议:先定义成功再动手;先用确定性 grader;风格类再引入 LLM judges;评估“产出物”而非“路径”(_philschmid)。
-
-
AGENTS.md / SKILL.md 是“护栏”,不是魔法:
-
Anthropic 作为“coding 组织”的张力:一条病毒式数据点声称“80%+ 的已部署代码由 Claude Code 编写”,并伴随担忧:速度提升可能以 可靠性回退 为代价(GergelyOrosz)。另有讨论涉及 Claude Code 在大公司内部落地,以及“监督”替代手写编码(_catwu, Yuchenj_UW)。
基础设施 + 本地 AI 硬件:Apple Neural Engine 裂缝、macOS 上 Docker/vLLM,以及“AI 基建年”
-
逆向 Apple Neural Engine 用于训练:一条高热线程称,有研究者借助未公开 API 在 ANE 上搭出了 transformer 训练循环,绕过 CoreML;重算子在 ANE,部分梯度仍在 CPU。还出现了诸如“M4 ANE 6.6 TFLOPS/W vs A100 的 0.08”“38 TOPS 是假象,真实吞吐 19 TFLOPS FP16”等效率说法——这些细节应回到 repo/paper 核验;但更重要的信号是:端侧训练/微调可能被打开(AmbsdOP,生态补充 AmbsdOP;技术摘要 LiorOnAI)。
-
macOS 本地服务更顺滑:Docker Desktop 的 “Model Runner” 新增对 MLX models 的支持,并兼容 OpenAI-compatible API 工作流,被视为 Apple Silicon 开发闭环的实用解锁(Docker)。
-
推理硬件分化:一篇 GPU vs Taalas HC 解读对比了 GPU 上“软件执行模型”(HBM 流式加载 + kernel 调度瓶颈)与“模型即硬件”ASIC(权重固化在 mask ROM);声称 HC1 可达 每用户 16–17k tok/s,代价是“一颗芯片 = 一个模型”(TheTuringPost)。
-
开源性能工具:AMD 开源 rocprof-trace-decoder(SQTT trace 定义),支持更深层的指令级时序追踪;相关讨论将其描述为 AMD tracing 基础设施“优于 NVIDIA”(tinygrad)。
-
AI 基建成为战略主线:智谱提出“2026 是 AI infrastructure 之年”,更像口号而非规范定义;但与整体信号一致:可靠性 + 成本 + tooling 正在压过模型边际提升(Zai_org)。
新研究 + 基准:Transformer 缩放理论、MuP 边界问题、CUDA-kernel RL 与“胡扯检测”
-
Transformer 缩放理论回顾:论文 “Effective Theory of Wide and Deep Transformers”(Meta)被再次广泛传播。这是一份 60+ 页分析,覆盖前向/反向信号传播、宽度缩放规则、超参缩放、NTK 分析与优化器行为(SGD vs AdamW),并在视觉/语言 transformer 上做了验证(TheTuringPost, arXiv link tweet)。
-
超越 MuP / Muon 的稳定性边角问题:讨论聚焦 Embedding / LM head / RMSNorm 层的稳定性指标,以及为何 embedding + LM head 可能“与 Muon 不太合拍”(Jianlin_S)。
-
CUDA Agent(字节跳动):被广泛视作从“能编译代码”迈向“高性能代码”的关键一步,采用 agentic RL + 真实 profiling 奖励。声称在 KernelBench 达到 SOTA、相对
torch.compile提升显著,并在最难 kernel 上接近/比肩前沿 LLM(HuggingPapers, 深度线程 BoWang87)。 -
BullshitBench v2:基准更新新增 100 道题,覆盖 coding/medical/legal/finance/physics,测试 70+ 模型变体,并声称 推理反而常常有害;据称 Anthropic 模型领先,而 OpenAI/Google 在该基准上“没有改进”(petergostev, 讨论反馈 scaling01)。
-
Scheming eval realism:相关建议 tha
[... 内容已截断 ...]
原文链接:https://www.latent.space/p/ainews-truth-in-the-time-of-artifice

