输入文本实时计数 Token,对比各模型价格,预估月度成本,掌握 5 大省钱策略。
基于上方文本的 Token 数量,作为单次输入的费用
1 token ≈ 4 字符 ≈ 0.75 词1 token ≈ 0.5-0.7 字$/百万 tokens 计价。输入(prompt)和输出(completion)分开计费,输出通常贵 2-5 倍。因为输出需要逐 token 生成,计算量更大。
90% 输入成本 和 85% 延迟。OpenAI 自动缓存可省 50%。这是 2026 年最重要的成本优化手段。
50% 折扣,与 Prompt Caching 可叠加至 95% 节省。
按 ROI 排序,从最容易实施到最复杂
大多数生产负载(分类、摘要、简单对话)用 GPT-4.1 mini 或 Gemini Flash 就够了。只在需要深度推理时切到 Sonnet/Opus。实现模型路由:简单请求走便宜模型,复杂请求走旗舰。
将 System Prompt、Few-shot 示例等静态内容放在消息最前面。Claude 和 OpenAI 自动识别可缓存内容。静态部分只计费一次,后续请求复用。
批量分类、数据标注、内容生成等不需要实时响应的任务,用 Batch API 提交。24 小时内完成,半价。可与 Prompt Caching 叠加。
在发送前压缩上下文:长文档先摘要再发给 LLM;去除无关的对话历史;用结构化格式(XML/JSON)替代冗长的自然语言描述。输入压缩 50% = 成本减半。
当某类请求量极大且模式稳定时,收集数据 fine-tune 一个小模型(如 GPT-4o-mini 或 Llama 8B)。无需 RAG 检索开销,推理速度快 3-5 倍,成本降 10-50 倍。