Together AI 批量 API 发布:成本减半,处理万级请求

指南2025年6月11日3 分钟阅读
Together AI 批量 API 发布:成本减半,处理万级请求
Together AI 推出批量 API,专门处理非实时大语言模型请求,成本比实时推理低 50%。单批次最多支持 5 万条请求,适合数据清洗、内容生成等离线任务。

Together AI 刚刚发布了批量 API(Batch API),专门给需要高效、低成本处理海量 LLM 请求的企业和开发者。无论是跑模型评估、分类大型数据集、生成营销内容,还是做数据转换,这套方案都能用实时推理一半的成本,提供企业级的性能。

为什么需要批量处理?

不是所有 AI 任务都需要立刻拿到结果。很多场景——比如合成数据生成、离线摘要——等几个小时完全没问题。把这些非实时请求集中起来,在闲时异步处理,就能在保证输出质量的前提下,大幅降低成本。大部分批次任务几小时内就能完成,官方承诺会在 24 小时内尽力处理完毕。

核心优势

成本直降 50%

用入门价处理你的非紧急任务,成本只有实时 API 调用的一半。AI 推理规模可以往上走,预算不用跟着涨。

大规模处理能力

单个批次文件最多能提交 5 万条请求(文件最大 100MB)。批量处理的速率限制和你的实时使用额度是分开的,互不影响。

任务会尽力在 24 小时内完成,你可以实时跟踪进度,从验证、排队、处理到聚合,每个阶段状态都看得见。

集成很简单

把请求打包成 JSONL 文件上传就行。通过批量 API 监控进度,完成后下载结果。

支持的模型

首批支持 15 个前沿模型,包括:

Model IDSize
deepseek-ai/DeepSeek-R1685B
deepseek-ai/DeepSeek-V3671B
meta-llama/Llama-3-70b-chat-hf70B
meta-llama/Llama-3.3-70B-Instruct-Turbo70B
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP817B
meta-llama/Llama-4-Scout-17B-16E-Instruct17B
meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo405B
meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo70B
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo8B
mistralai/Mistral-7B-Instruct-v0.17B
mistralai/Mixtral-8x7B-Instruct-v0.18×7B
Qwen/Qwen2.5-72B-Instruct-Turbo72B
Qwen/Qwen2.5-7B-Instruct-Turbo7B
Qwen/Qwen3-235B-A22B-fp8-tput235B
Qwen/QwQ-32B32B

怎么用?

  1. 准备请求:把请求格式化成 JSONL 文件,每行一条请求,带上唯一标识符。
  2. 上传并提交:用 Files API 上传批次文件,创建任务。
  3. 监控进度:跟踪任务状态,从验证、排队、处理到聚合。
  4. 下载结果:任务完成后,获取结构化的结果文件,失败请求会单独列在错误文件里。
python
# Upgrade to the latest together python package:
pip install --upgrade together

from together import Together

client = Together()

# 1. Upload your batch file
file_resp = client.files.upload(file="batch_input.jsonl", purpose="batch-api")

# 2. Create the batch job
batch = client.batches.create_batch(file_resp.id)
print(f"Batch created: {batch.id}")

# 3. Monitor progress
batch_status = client.batches.get_batch(batch.id)
print(f"Status: {batch_status.status}")

# 4. Retrieve results when complete
if batch_status.status == 'COMPLETED':
    # Download results using the output_file_id
    client.files.retrieve_content(id=batch_status.output_file_id, output="batch_output.jsonl")

输入格式示例

json
{"custom_id": "req1", "body": {"model": "deepseek-ai/DeepSeek-V3", "messages": [{"role": "user", "content": "Explain quantum computing"}], "max_tokens": 200}}
{"custom_id": "req2", "body": {"model": "deepseek-ai/DeepSeek-V3", "messages": [{"role": "user", "content": "Tell me about San Francisco"}], "max_tokens": 200}}

速率限制与规模

批量 API 有独立的速率限制,不和实时使用额度冲突:

  • 最大 Token 数:每个模型最多排队 1000 万 Token。
  • 单批次请求数:每个批次文件最多 5 万条独立请求。
  • 文件大小限制:批次输入文件最大 100MB。
  • 独立速率池:批量处理不消耗标准 API 速率限制。

按需付费,灵活扩展

  • 只对成功完成的请求付费,享受入门价 50% 折扣。
  • 无需预付承诺或最低用量。
  • 沿用你熟悉的按 Token 计费模式。
  • 独立速率限制,不影响实时使用。

最佳实践

  • 批次大小:每批 1000 到 1 万条请求,性能最佳。
  • 模型选择:简单任务用 7B-17B 小模型,复杂推理用 70B+ 大模型。
  • 错误处理:务必检查错误文件,查看失败请求详情。
  • 监控频率:每 30-60 秒轮询一次状态更新。

快速上手

开始使用很简单:

  1. 升级到最新版 together Python 客户端
  2. 查看带代码示例的批量 API 文档
  3. 从我们的示例代码库开始尝试。
  4. 今天就可以提交你的第一个批次任务,立刻看到成本节省效果。

批量 API 现已对所有用户开放。用一半的成本,开始处理成千上万的请求吧。

音频名称

音频描述

0:00

支持原生音频和逼真物理效果的高品质电影级视频生成。

8S

DeepSeek R1

支持原生音频和逼真物理效果的高品质电影级视频生成。

性能与规模

正文内容占位,Lorem ipsum dolor sit amet

  • 要点占位,Lorem ipsum
  • 要点占位,Lorem ipsum
  • 要点占位,Lorem ipsum

基础设施

适用场景

  • 处理速度更快(整体查询延迟更低),运营成本更低
  • 执行定义清晰、直接的任务
  • 函数调用、JSON 模式或其他结构良好的任务

列表项 #1

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

构建

包含的福利:

  • ✔ 最高 1.5 万美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资情况:少于 500 万美元

构建

包含的福利:

  • ✔ 最高 1.5 万美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资情况:少于 500 万美元

构建

包含的福利:

  • ✔ 最高 1.5 万美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资情况:少于 500 万美元

XX

标题

正文内容占位,Lorem ipsum dolor sit amet

XX

标题

正文内容占位,Lorem ipsum dolor sit amet

XX

标题

正文内容占位,Lorem ipsum dolor sit amet

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论