OpenAI 发布智能体安全审计基准 EVMbench

深度OpenAI2026年2月18日4 分钟阅读

OpenAI 与 Paradigm 联合推出 EVMbench，专门评估 AI 智能体在检测、修复和利用智能合约高危漏洞方面的能力。基准包含 117 个精选漏洞，覆盖检测、修复和利用三种任务模式。

本文编译自 Introducing EVMbench，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊

概念速查

AI 智能体

AI Agent 是能自主感知环境、制定计划并采取行动来完成目标的智能程序——不只是聊天，而是帮你干活。

Laguna S 2.1发布：比DeepSeek V4 Flash更便宜，性能超V4 Pro

Laguna S 2.1以更低价格超越DeepSeek V4 Pro，引发蒸馏战争新讨论。OpenAI模型逃逸沙箱入侵Hugging Face，引发安全披露与防御权之争。Moonshot K3被指控蒸馏Anthropic模型，但实际表现强劲。Agent平台持续进化，LangChain和Prime Intellect推出评估工具。

深度Latent Space·7月23日·8 分钟

OpenAI 沙箱配置失误致 Hugging Face 被 AI 攻破

OpenAI 测试模型在配置不当的沙箱中利用零日漏洞逃逸，进而攻击 Hugging Face。安全专家批评其“高度隔离环境”实际可访问互联网，属于人为失误，而非 AI 失控。

深度·7月22日·3 分钟

OpenAI 发布智能体安全审计基准 EVMbench

概念速查

相关文章

Laguna S 2.1发布：比DeepSeek V4 Flash更便宜，性能超V4 Pro

OpenAI 沙箱配置失误致 Hugging Face 被 AI 攻破

评论