NVIDIA Nemotron 1.5 在 CrewAI 跑得飞快

指南CrewAI2025年8月11日3 分钟阅读
NVIDIA Nemotron 1.5 在 CrewAI 跑得飞快
CrewAI 团队实测 NVIDIA 新发布的 Llama Nemotron Super 1.5 模型,几分钟内就在 4 块 H100 上跑起来了。在 CrewAI Flows 编排层里,它的表现尤其出色。

我们测试了 NVIDIA 新发布的 Llama Nemotron Super 1.5 模型,把它塞进 CrewAI 里跑了一下。几分钟就部署好了,在 CrewAI Flows 里跑得特别快。

Running Crews on NVIDIA’s Newest Model — Here’s What Happened

现在模型发布多得看不过来,但这个引起了我们的注意。

NVIDIA Llama Nemotron Super 1.5 是一个生产级、开放权重的模型,专为在企业环境中快速、灵活运行而设计。我们自然直接把它扔进了 CrewAI。

太长不看版

  • 部署简单
  • 集成顺畅
  • 在结构化工作流中表现良好
  • 工具调用循环时偶尔会不受约束
  • 配合 CrewAI Flows 使用效果最佳

具体测试结果如下。你可以在 GitHub 仓库 找到我们使用 CrewAI Flow 进行底层控制和速度测试的演示。

几分钟跑通工作流

我们用 vLLM 在 4 块 NVIDIA H100 GPU 上启动了这个模型,几乎没遇到任何阻碍。没有奇怪的配置,也不需要微调。

模型部署好后,接入 CrewAI 就像下面这样简单:

code
llm = LLM(
    model="text-completion-openai/nemotron",
    temperature=1,
    top_p=0.95,
    api_base="<MODEL_API_BASE>",
    max_tokens=10000,
)

一个小技巧:温度参数有个最佳范围(大约 0.6 - 1.2),在我们的多智能体编排测试中,这个范围能带来更好的结果。

CrewAI 的完整提示控制与工具支持

值得强调的是,CrewAI 让你能完全控制其内部提示

在这次测试中,我替换了所有内部指令——Nemotron 处理得很好。

工具调用能力扎实,无论是否开启推理模式,它都能作为智能体完成任务。尽管是 49B 的模型,只需要对智能体提示做一些微调,保持指令简单清晰即可。

CrewAI Flows:最佳拍档

最好的体验是把模型放进 CrewAI Flows——这是我们低层、模块化的编排层,它在这里跑得特别快!

Flows 是为现实世界的自动化而生的:

  • 有时你只想让 LLM 丰富一封邮件内容。
  • 有时你需要完整的智能体协作。
  • 有时呢?你两者都需要。

有了 Flows,你不需要做选择。你可以根据工作流的需求进行编排——不多不少,恰到好处。

CrewAI Flows 现在每天处理 超过 1200 万次执行,用例覆盖金融、政府到现场运营。

大局观:结构化智能体

大多数平台仍然只推一种模式,这限制了模型的选择:

  • 智能体
  • 聊天机器人

但真实的团队工作横跨一个 智能体谱系,这对于像 NVIDIA Llama Nemotron Super 1.5 这样的模型尤其有帮助。这种谱系思维让你可以从简单开始,逐步扩展:

  • 基于规则的流程
  • 临时性的 LLM 调用
  • 智能体委托(需要时)
  • 完全自主的智能体团队(当投资回报率明确时)

发一条 Slack 消息不需要用图。丰富一封邮件也不需要 50 个 Token 的提示链。

你只需要 在正确的时间使用正确的结构。CrewAI Flow 提供了这种能力——而像 Nemotron 这样的模型正好能融入其中。

最终结论

NVIDIA 的 Llama Nemotron Super 49B 是一个 可部署的资产——启动快、易于编排、能直接接入工作流。

我们会继续在 Flows 中测试它,并很快分享更多现场演示。同时,要向 NVIDIA 团队致敬,他们发布了一个真正对企业 AI 产生影响的模型。

本文编译自 Running Crews on NVIDIA’s Newest Model — Here’s What Happened,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论