资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
Jentic Mini 是一个免费、开源、可自托管的权限防火墙,旨在解决 OpenClaw 等 AI 智能体(Agent)的凭证泄露和权限控制问题。它位于智能体与 API 之间,集中管理凭证、执行细粒度权限控制,并提供一键切断所有数据访问的紧急开关。该产品基于 Jentic 过去 18 个月的企业级平台经验开发。
Claude 的新计算机使用功能让 AI 助手能操控 macOS 桌面应用,自动处理邮件、整理数据等任务。安全方面有权限控制、风险行为拦截等护栏,但 Anthropic 提醒用户仍需主动保护敏感信息。该功能目前处于研究预览阶段,仅向 Claude Pro 和 Claude Max 订阅者开放。
本周 AI 编程新闻涵盖 Claude Code 的多项更新,包括计算机任务自动化、云端定时任务和频道集成。同时,GPT-5.4 在视觉设计方面表现提升,Cursor Composer 2 发布速度更快。社区还分享了安全审计提示和减少幻觉的文档指令。
AI 原生应用兴起挑战传统应用商店审核模式,引发‘反低质应用战争’。智能体工程(Agentic Engineering)进展集中在执行框架(Harness)、工具调用(Tool Use)集成和供应链安全。开源智能体平台和推理优化技术也在快速成熟。
OpenAI 启动安全漏洞赏金计划,聚焦 AI 滥用和安全风险,涵盖智能体风险、专有信息泄露和平台完整性漏洞。计划通过 Bugcrowd 平台接受提交,与安全漏洞赏金计划互补。
Claude Code 新增自动模式,通过 Claude Sonnet 4.6 模型实时审查操作,提供默认安全规则和自定义选项。作者认为 AI 防护不可靠,更信任确定性沙箱。
Moda 平台通过多智能体架构(设计、研究、品牌工具包智能体)处理复杂的视觉设计任务。团队利用 Deep Agents 和 LangSmith 解决了视觉布局表示、动态上下文加载和成本控制等挑战,实现了类似 Cursor 的实时协作设计体验。
Ai2 推出开源视觉网页智能体 MolmoWeb,通过截图操作浏览器,在多项基准测试中超越部分开源模型。团队公开了完整的训练堆栈,包括 3 万条人类任务轨迹和合成数据,旨在为研究人员提供可复现的基础。
WebAssembly 为 AI 智能体生成的代码提供卓越的隔离和沙箱环境,解决了容器和微虚拟机在安全性和效率上的不足。开源工具 Boxer 允许开发者将 Dockerfile 转换为 Wasm 分发,降低采用门槛。未来沙箱技术将扩展到同构计算,实现代码在浏览器、手机和云端的无缝运行。
本文分享了如何将 GitHub Copilot SDK 集成到 React Native 应用中,构建一个名为 IssueCrush 的 Issue 智能分类工具。核心方案是服务端集成模式,解决了 SDK 依赖 Node.js 环境的问题,并详细介绍了生命周期管理、提示工程、响应处理和优雅降级等关键实现模式。
llm-d 是一个开源的 Kubernetes 原生框架,可将 LLM 推理作为分布式生产级工作负载运行。它通过解耦推理阶段、智能路由和缓存感知调度,提升了推理性能和可扩展性。该项目已捐赠给 CNCF,旨在标准化分布式推理的部署和管理。
LiteLLM v1.82.8 包在 PyPI 上被供应链攻击植入恶意代码,能窃取 SSH、AWS、Docker 等多种凭证。攻击源于 Trivy 安全扫描工具被黑,PyPI 已隔离该包。
Claude 在多项网络安全竞赛中表现不俗,常位列前 25%,在简单任务上速度甚至超越人类。但它在 PlaidCTF 等高难度竞赛中未能解出任何题目,显示其能力边界。研究揭示了 AI 可能降低攻击门槛,需加强 AI 驱动的网络防御研究。
研究表明,LLM 结合专用工具包能显著降低复杂网络攻击的门槛,同时也能自动化防御工作流。实验模拟了 Equifax 数据泄露等高保真场景,多数模型在工具辅助下取得进展。这凸显了加强 LLM 攻防能力研究的紧迫性。
PwC 推出 AI 智能体平台 PwC One,客户可自助提交问题,智能体自主执行任务,咨询师在后台审核输出。平台采用多 LLM 架构,内置合规框架,目前处于测试阶段,已用于财务分析、税务合规等场景。公司表示定价将反映洞察速度与结果质量,责任由专业团队承担。
Cloudflare 的 Dynamic Workers 利用 V8 隔离机制,为 AI 智能体提供快速、安全的代码执行沙盒。它支持 TypeScript API 定义,比 OpenAPI 更简洁,并具备无限制的扩展能力和零延迟优势。
作者在 Claude Code 中测试了五种不同的安全审计提示词(Skills/Prompts),对比了它们在发现 SQL 注入、XSS 等漏洞上的效果。实测发现,不同提示词在准确性、覆盖面和误报率上表现不一,选择合适的提示词对安全审计至关重要。
EVA 框架通过模拟真实的多轮语音对话,首次联合评估语音智能体的任务准确性(EVA-A)和对话体验(EVA-E)。团队发布了包含 50 个航空场景的初始数据集,并发现系统在准确性和体验上普遍存在权衡。