SkillNav 交互指南 · P2

Token 经济学计算器

输入文本实时计数 Token,对比各模型价格,预估月度成本,掌握 5 大省钱策略。

🔢 实时 Token 计数 & 价格对比

0 字符
0
预估 Tokens
0
字符数
0
词/字数
$0
最低成本 (输入)

💰 各模型输入成本对比

基于上方文本的 Token 数量,作为单次输入的费用

📊 月度成本估算器

API 调用次数/天
包含 System Prompt + 用户消息
模型生成的回复长度
Claude/OpenAI 均支持 Prompt Caching
月请求量: · 月消耗 Tokens:

📖 Token 基础知识

🔤 什么是 Token?

Token 是 LLM 处理文本的最小单位。不等于字符也不等于单词。一个英文单词通常是 1-3 个 token,一个中文字通常是 1.5-2 个 token。标点符号、空格也占 token。

📐 Token 估算经验

英文:1 token ≈ 4 字符 ≈ 0.75 词
中文:1 token ≈ 0.5-0.7 字
代码:变量名和关键字通常各 1 token
1000 tokens ≈ 750 英文词 ≈ 500-600 中文字

💵 定价模型

API 按 $/百万 tokens 计价。输入(prompt)和输出(completion)分开计费,输出通常贵 2-5 倍。因为输出需要逐 token 生成,计算量更大。

📏 上下文窗口

上下文窗口 = 输入 + 输出的 token 总上限。2026 年主流模型:128K-1M tokens。更大的窗口不等于更好 — 超长输入会增加成本和延迟,且「中间内容丢失」现象仍然存在。

🔄 Prompt Caching

将 System Prompt 等静态内容缓存,后续请求复用。Anthropic 可节省 90% 输入成本85% 延迟。OpenAI 自动缓存可省 50%。这是 2026 年最重要的成本优化手段。

📊 Batch API

非实时任务(分析、分类、批量处理)可用 Batch API,24 小时内完成即可。Anthropic/OpenAI 均提供 50% 折扣,与 Prompt Caching 可叠加至 95% 节省

💡 5 大省钱策略

按 ROI 排序,从最容易实施到最复杂

1️⃣

选对模型 — 80% 任务不需要旗舰

大多数生产负载(分类、摘要、简单对话)用 GPT-4.1 mini 或 Gemini Flash 就够了。只在需要深度推理时切到 Sonnet/Opus。实现模型路由:简单请求走便宜模型,复杂请求走旗舰。

💰 节省 80-95%(mini vs Opus)
2️⃣

启用 Prompt Caching — 零代码改动

将 System Prompt、Few-shot 示例等静态内容放在消息最前面。Claude 和 OpenAI 自动识别可缓存内容。静态部分只计费一次,后续请求复用。

💰 节省 90% 输入成本 + 85% 延迟
3️⃣

Batch API — 非实时任务的杀手锏

批量分类、数据标注、内容生成等不需要实时响应的任务,用 Batch API 提交。24 小时内完成,半价。可与 Prompt Caching 叠加。

💰 节省 50%,与缓存叠加最高 95%
4️⃣

压缩输入 — 少一个 token 就少一分钱

在发送前压缩上下文:长文档先摘要再发给 LLM;去除无关的对话历史;用结构化格式(XML/JSON)替代冗长的自然语言描述。输入压缩 50% = 成本减半。

💰 节省 40-60% 输入成本
5️⃣

Fine-tune 小模型 — 终极成本优化

当某类请求量极大且模式稳定时,收集数据 fine-tune 一个小模型(如 GPT-4o-mini 或 Llama 8B)。无需 RAG 检索开销,推理速度快 3-5 倍,成本降 10-50 倍。

💰 节省 90-98%(但需要前期投入)