资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
Gemma 3n 是 Google 推出的移动优先开源 AI 模型,基于与高通、联发科等合作的新架构,内存占用低至 2-3GB,支持音频转录、翻译等多模态功能。开发者可通过 Google AI Studio 和 Google AI Edge 进行预览。
Together Code Interpreter(TCI)是一个 API,可安全执行 LLM 生成的代码,输出结果。它支持智能体工作流闭环迭代,并已用于强化学习训练,显著提升效率。
CrewAI 发布 CrewAI Factory,支持在企业自有数据中心或私有云中部署智能体 AI 平台。该方案与 NVIDIA AI Enterprise 集成,提供 NVIDIA NeMo 等模型工具,帮助企业规模化部署智能体工作流,实现业务转型。
AlphaEvolve 是一个基于 Gemini 大语言模型的进化编码智能体,通过自动评估和进化框架发现并优化算法。它已成功应用于谷歌数据中心(回收 0.7% 计算资源)、TPU 芯片设计(优化 Verilog 电路)和 AI 训练(加速矩阵乘法内核 23%),并在数学问题上取得了进展,如在 11 维空间改进了“接吻数问题”的下界。
Together AI 通过定制推测解码优化 DeepSeek-R1 推理效率。在文档提取、社交聊天助手和简历筛选三个真实场景中,定制推测器比基础版提速 1.23-1.45 倍,GPU 成本降低 23%-26%。仅需 20M 训练 token 即可实现 >1.10 倍加速。
Gemini 2.5 Pro 预览版更新,前端开发性能在 WebDev Arena 排行榜位列第一。模型支持视频理解生成代码、简化功能开发流程,并能快速将概念转化为完整应用。开发者可通过 Google AI Studio 或 Vertex AI 使用该模型。
Gemini 2.5 Pro 更新版提前发布,编码能力大幅提升,尤其适合构建交互式网页应用。该模型在 WebDev Arena Leaderboard 上表现优异,视频理解能力达到业界领先水平。开发者可通过 Google AI Studio 和 Vertex AI 开始使用。
Gemini 2.5 Flash 在 2.0 Flash 基础上大幅升级推理能力,同时保持速度和成本优势。开发者可通过 thinking_budget 参数精细控制思维令牌数,平衡质量、成本和延迟。模型现已通过 Gemini API、Google AI Studio 和 Vertex AI 提供预览。
持续微调(CFT)允许在已训练模型基础上进行增量训练,能有效应对任务迁移、多语言适配和偏好对齐等场景。文章分析了 CFT 的技术挑战(如灾难性遗忘)并提供了在 Together 平台上的具体实现方法。
本文分析了提示注入攻击的成因:LLM 输入中指令与数据未分离,且模型被训练为遵循输入中的任何指令。提出的防御方案包括安全前端(Secure Front-End)分隔输入、结构化指令调优(StruQ)模拟注入训练,以及特殊偏好优化(SecAlign)通过偏好优化增强鲁棒性。实验显示,SecAlign 在保持模型通用能力的同时,将优化攻击成功率降低至 15% 以下。
Gemini 2.5 Pro 是 Google 最新的思考模型,在数学、科学和编码基准测试中表现优异,支持多模态输入和长上下文处理。开发者可通过 Google AI Studio 和 Gemini 应用抢先体验。
Together Chat 应用正式发布,集成了 DeepSeek R1、Llama 3.3 70B、Qwen 2.5 72B、Qwen Coder 32B 和 Flux Schnell 等主流开源模型。该应用支持联网搜索、图像生成和代码编写,并可作为渐进式网页应用在手机上使用。
Gemini Robotics 是基于 Gemini 2.0 的视觉-语言-动作模型,可直接控制机器人,在通用性、交互性和灵巧性上表现突出。Gemini Robotics-ER 则增强了空间理解能力,可生成代码控制机器人,成功率比 Gemini 2.0 高 2-3 倍。Google 正与合作伙伴推进机器人安全研究和实际应用。
Gemini 2.0 Flash 的原生图像生成功能已通过 Google AI Studio 和 Gemini API 开放给开发者测试。该功能支持图文混合创作、多轮对话编辑、基于知识的图像生成以及更准确的文本渲染。开发者现在可以使用实验模型 gemini-2.0-flash-exp 进行体验。
Gemma 3 是 Google DeepMind 推出的新一代轻量级开源模型,在单 GPU/TPU 上表现优异,支持多语言、视觉推理和函数调用。同时发布的 ShieldGemma 2 是一个基于 Gemma 3 的图像安全检查器。模型已集成到 Hugging Face、Ollama 等主流工具链中。
Gemini 2.0 Flash-Lite 正式上线,性能超越前代,定价更简化。文章展示了 Daily、Dawn 和 Mosaic 三家公司在语音 AI、数据分析和视频编辑领域如何利用该模型提升效率、降低成本。
Gemini 2.0 Flash 现已通过 API 全面开放,适用于生产级应用。同时,谷歌推出了实验版 Gemini 2.0 Pro,专为代码性能和复杂提示优化,以及预览版 Gemini 2.0 Flash-Lite,在保持低成本高速度的同时提升了质量。所有模型均支持多模态输入。
FACTS Grounding 是一个评估大语言模型事实对齐能力的综合基准,包含 1,719 个需要长文档响应的示例,覆盖金融、科技、医疗等多个领域。评估采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 作为自动法官模型,通过两阶段评分确保响应既满足用户请求又完全基于文档。基准和排行榜将随领域进展持续更新。