大语言模型大规模去匿名化攻击

深度2026年3月26日3 分钟阅读
大语言模型大规模去匿名化攻击
研究人员利用大语言模型(LLM)构建了一个可扩展的攻击流水线,仅凭用户在 Hacker News、Reddit 等平台的匿名文本内容,就能以高达 90% 的精确度重新识别用户身份。相比传统方法近乎零的召回率,LLM 方法在三个真实数据集上实现了最高 68% 的召回率。

一篇新论文揭示,大语言模型(LLM)能以前所未有的规模和精度执行去匿名化攻击。研究人员构建了一个智能体(Agent),在拥有完整互联网访问权限的情况下,仅凭匿名在线资料和对话,就能高精度地重新识别 Hacker News 用户和 Anthropic Interviewer 参与者,其效率相当于一名专注的人类调查员数小时的工作量。

攻击流水线设计

针对‘封闭世界’场景,研究团队设计了一套可扩展的攻击流水线。给定两个包含匿名个体非结构化文本的数据库,该流水线利用 LLM 执行三个核心步骤:

  1. 提取身份相关特征:从原始文本中识别可能与个人身份相关的信息。
  2. 通过语义嵌入搜索候选匹配:利用向量嵌入(Embedding)进行语义相似度搜索,快速筛选潜在匹配对。
  3. 对顶级候选进行推理验证:对筛选出的候选进行深度推理,验证匹配并减少误报。

与需要结构化数据的经典去匿名化工作(如 Netflix 奖竞赛)不同,这种方法能直接处理任意平台上的原始用户内容。

数据集与评估

为了评估攻击效果,研究人员构建了三个带有已知真实匹配的数据集:

  • 数据集一:将 Hacker News 用户与 LinkedIn 个人资料进行关联,利用个人资料中出现的跨平台引用信息。
  • 数据集二:匹配 Reddit 电影讨论社区中的用户。
  • 数据集三:将单个用户的 Reddit 历史按时间分割,创建两个待匹配的匿名档案。

在每种场景下,基于 LLM 的方法都显著优于传统基线方法。在保持 90% 精确度(Precision)的前提下,LLM 方法实现了高达 68% 的召回率(Recall),而最佳的非 LLM 方法召回率接近 0%。

结论与启示

研究结果表明,保护匿名用户的‘实际隐匿性’(Practical Obscurity)假设已不再成立。在线隐私的威胁模型需要被重新审视。

论文信息

  • 标题:Large-scale online deanonymization with LLMs
  • 链接查看 PDF | HTML(实验性)
  • 摘要:We show that large language models can be used to perform at-scale deanonymization. With full Internet access, our agent can re-identify Hacker News users and Anthropic Interviewer participants at high precision, given pseudonymous online profiles and conversations alone, matching what would take hours for a dedicated human investigator. We then design attacks for the closed-world setting. Given two databases of pseudonymous individuals, each containing unstructured text written by or about that individual, we implement a scalable attack pipeline that uses LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, and (3) reason over top candidates to verify matches and reduce false positives. Compared to classical deanonymization work (e.g., on the Netflix prize) that required structured data, our approach works directly on raw user content across arbitrary platforms. We construct three datasets with known ground-truth data to evaluate our attacks. The first links Hacker News to LinkedIn profiles, using cross-platform references that appear in the profiles. Our second dataset matches users across Reddit movie discussion communities; and the third splits a single user's Reddit history in time to create two pseudonymous profiles to be matched. In each setting, LLM-based methods substantially outperform classical baselines, achieving up to 68% recall at 90% precision compared to near 0% for the best non-LLM method. Our results show that the practical obscurity protecting pseudonymous users online no longer holds and that threat models for online privacy need to be reconsidered.
  • 评论:24 页,10 张图
  • 主题:Cryptography and Security (cs.CR); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
  • 引用为arXiv:2602.16800 [cs.CR] (或此版本的 arXiv:2602.16800v2 [cs.CR])
  • DOIhttps://doi.org/10.48550/arXiv.2602.16800

提交历史

  • 来自:Daniel Paleka [查看邮箱]
  • [v1] 2026年2月18日 星期三 19:02:50 UTC (1,555 KB)
  • [v2] 2026年2月25日 星期三 18:37:33 UTC (1,557 KB)
本文编译自 Large-scale online deanonymization with LLMs,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论