Together AI 批量 API 发布:成本减半,处理万级请求
Together AI 刚刚发布了批量 API(Batch API),专门给需要高效、低成本处理海量 LLM 请求的企业和开发者。无论是跑模型评估、分类大型数据集、生成营销内容,还是做数据转换,这套方案都能用实时推理一半的成本,提供企业级的性能。
为什么需要批量处理?
不是所有 AI 任务都需要立刻拿到结果。很多场景——比如合成数据生成、离线摘要——等几个小时完全没问题。把这些非实时请求集中起来,在闲时异步处理,就能在保证输出质量的前提下,大幅降低成本。大部分批次任务几小时内就能完成,官方承诺会在 24 小时内尽力处理完毕。
核心优势
成本直降 50%
用入门价处理你的非紧急任务,成本只有实时 API 调用的一半。AI 推理规模可以往上走,预算不用跟着涨。
大规模处理能力
单个批次文件最多能提交 5 万条请求(文件最大 100MB)。批量处理的速率限制和你的实时使用额度是分开的,互不影响。
任务会尽力在 24 小时内完成,你可以实时跟踪进度,从验证、排队、处理到聚合,每个阶段状态都看得见。
集成很简单
把请求打包成 JSONL 文件上传就行。通过批量 API 监控进度,完成后下载结果。
支持的模型
首批支持 15 个前沿模型,包括:
| Model ID | Size |
|---|---|
| deepseek-ai/DeepSeek-R1 | 685B |
| deepseek-ai/DeepSeek-V3 | 671B |
| meta-llama/Llama-3-70b-chat-hf | 70B |
| meta-llama/Llama-3.3-70B-Instruct-Turbo | 70B |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | 17B |
| meta-llama/Llama-4-Scout-17B-16E-Instruct | 17B |
| meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo | 405B |
| meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo | 70B |
| meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo | 8B |
| mistralai/Mistral-7B-Instruct-v0.1 | 7B |
| mistralai/Mixtral-8x7B-Instruct-v0.1 | 8×7B |
| Qwen/Qwen2.5-72B-Instruct-Turbo | 72B |
| Qwen/Qwen2.5-7B-Instruct-Turbo | 7B |
| Qwen/Qwen3-235B-A22B-fp8-tput | 235B |
| Qwen/QwQ-32B | 32B |
怎么用?
- 准备请求:把请求格式化成 JSONL 文件,每行一条请求,带上唯一标识符。
- 上传并提交:用 Files API 上传批次文件,创建任务。
- 监控进度:跟踪任务状态,从验证、排队、处理到聚合。
- 下载结果:任务完成后,获取结构化的结果文件,失败请求会单独列在错误文件里。
# Upgrade to the latest together python package:
pip install --upgrade together
from together import Together
client = Together()
# 1. Upload your batch file
file_resp = client.files.upload(file="batch_input.jsonl", purpose="batch-api")
# 2. Create the batch job
batch = client.batches.create_batch(file_resp.id)
print(f"Batch created: {batch.id}")
# 3. Monitor progress
batch_status = client.batches.get_batch(batch.id)
print(f"Status: {batch_status.status}")
# 4. Retrieve results when complete
if batch_status.status == 'COMPLETED':
# Download results using the output_file_id
client.files.retrieve_content(id=batch_status.output_file_id, output="batch_output.jsonl")
输入格式示例
{"custom_id": "req1", "body": {"model": "deepseek-ai/DeepSeek-V3", "messages": [{"role": "user", "content": "Explain quantum computing"}], "max_tokens": 200}}
{"custom_id": "req2", "body": {"model": "deepseek-ai/DeepSeek-V3", "messages": [{"role": "user", "content": "Tell me about San Francisco"}], "max_tokens": 200}}
速率限制与规模
批量 API 有独立的速率限制,不和实时使用额度冲突:
- 最大 Token 数:每个模型最多排队 1000 万 Token。
- 单批次请求数:每个批次文件最多 5 万条独立请求。
- 文件大小限制:批次输入文件最大 100MB。
- 独立速率池:批量处理不消耗标准 API 速率限制。
按需付费,灵活扩展
- 只对成功完成的请求付费,享受入门价 50% 折扣。
- 无需预付承诺或最低用量。
- 沿用你熟悉的按 Token 计费模式。
- 独立速率限制,不影响实时使用。
最佳实践
- 批次大小:每批 1000 到 1 万条请求,性能最佳。
- 模型选择:简单任务用 7B-17B 小模型,复杂推理用 70B+ 大模型。
- 错误处理:务必检查错误文件,查看失败请求详情。
- 监控频率:每 30-60 秒轮询一次状态更新。
快速上手
开始使用很简单:
批量 API 现已对所有用户开放。用一半的成本,开始处理成千上万的请求吧。
音频名称
音频描述
0:00
支持原生音频和逼真物理效果的高品质电影级视频生成。
8S
DeepSeek R1

支持原生音频和逼真物理效果的高品质电影级视频生成。
性能与规模
正文内容占位,Lorem ipsum dolor sit amet
- 要点占位,Lorem ipsum
- 要点占位,Lorem ipsum
- 要点占位,Lorem ipsum
基础设施
适用场景
- 处理速度更快(整体查询延迟更低),运营成本更低
- 执行定义清晰、直接的任务
- 函数调用、JSON 模式或其他结构良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前置部署工程时间。
融资情况:少于 500 万美元
XX
标题
正文内容占位,Lorem ipsum dolor sit amet
XX
标题
正文内容占位,Lorem ipsum dolor sit amet
XX
标题
正文内容占位,Lorem ipsum dolor sit amet
觉得有用?分享给更多人