AI Token 節省深度攻略:從原理到實戰步驟,實現 50–90% 成本降低

在 2026 年的 AI 開發中,Token 消耗是最大成本痛點。一次 Agent 循環或長上下文 RAG 查詢,可能輕鬆消耗數萬至數百萬 Token,累積成高額賬單。本攻略針對「如何有效節省 Token」進行詳細拆解,涵蓋原理、量化影響、具體實施步驟、程式碼範例、常見陷阱與邊緣考量。結合業界最佳實踐(模型路由、提示優化、Prompt Caching、上下文管理等),幫助你系統性降低 50–90% 成本,同時維持或提升輸出品質。

一、Token 消耗的本質與量化分析

核心公式
總成本 = (輸入 Token × 輸入單價) + (輸出 Token × 輸出單價)

  • 輸入 Token:佔比通常最高(70–90%),來源包括系統提示、對話歷史、RAG 檢索結果、工具描述、大文件等。
  • 輸出 Token:單價較高(常為輸入的 2–5 倍),但可透過明確指令大幅壓縮。
  • 典型浪費比例(未優化 Agent):系統提示重複 30%、歷史上下文膨脹 40%、簡單任務用強模型 20–30%。

量化基準:一個每日 1000 次呼叫的 Agent,未優化月成本可能 500–2000 美元;優化後可降至 100–400 美元。

二、策略一:智能模型路由(最高槓桿,節省 50–80%)

原理:不同任務難度差異巨大,無需每次都用頂級模型(Claude Opus / GPT-5 高階)。簡單任務用輕量模型,品質損失極小甚至無。

步驟教學

  1. 任務分類:定義 3–4 層級(簡單:分類/提取;中等:程式碼生成/一般推理;複雜:創新規劃/多步推理)。
  2. 選擇模型
    • 簡單:GPT-4o mini、Kimi、GLM-4-Air、DeepSeek-V3(成本 1/10–1/5)。
    • 中等:Claude Sonnet、GPT-5.2 中階。
    • 複雜:Opus / 高階模型(控制在 10–20% 比例)。
  3. 實施路由
    • 使用 LiteLLM / OpenRouter / 自訂 Router。
    • 範例(Python + LiteLLM):
from litellm import completion
import json

def route_and_call(task: str, complexity: str = "auto"):
    if complexity == "simple" or ("extract" in task.lower() or len(task) < 200):
        model = "gpt-4o-mini"  # 或 "kimi" 
    elif complexity == "medium":
        model = "claude-3-5-sonnet"
    else:
        model = "claude-opus-4"
    
    response = completion(
        model=model,
        messages=[{"role": "user", "content": task}],
        temperature=0.7
    )
    print(f"使用模型: {model} | Token: {response.usage}")
    return response
  1. 進階:用小型分類器(甚至另一個輕量 LLM)自動判斷複雜度;監控 dashboard 追蹤各模型用量比例。
  2. 測試迭代:A/B 測試 100 個任務,確保品質 >95% 時再全面切換。

預期效果:80% 任務走輕量模型,即可省 60%+。

三、策略二:提示詞工程與壓縮(節省 30–70%)

原理:冗餘文字、模糊指令、無用輸出都會浪費 Token。精簡 + 結構化可大幅減少輸入/輸出。

步驟教學

  1. 精簡原則
    • 去除問候/重複角色描述。
    • 指定輸出格式(JSON、Markdown 表格)。
    • 加入長度限制:「用最多 150 字回答」或 max_tokens=300
  2. Few-shot 優化:僅用 1–2 個最相關範例,壓縮描述。
  3. 結構化輸出:使用 Pydantic / Function Calling,讓模型只輸出必要欄位。
  4. 壓縮工具
    • 使用 tiktoken 計算 Token 數,迭代提示直到 < 原長 70%。
    • Prompt Compression 庫(如 LLMLingua)自動壓縮。

範例前後對比

  • (浪費):「你是一位優秀的 AI 助手,請詳細分析以下內容,包括背景、優點、缺點,並給出建議…」(高 Token + 冗長輸出)。
  • (節省):{"role": "system", "content": "分析以下內容,輸出 JSON: {'summary': str, 'pros': list, 'cons': list},總長 < 200 字"}

實測:輸出 Token 可減少 40–60%。

四、策略三:Prompt Caching(最高性價比,節省 50–90% 輸入 Token)

原理:供應商對重複的前綴提示(系統指令、工具描述、知識庫)快取 KV 矩陣,後續讀取僅收 10–50% 費用。

供應商差異

  • OpenAI:自動(>1024 Token 前綴),Cache Read 約 50% 折扣。
  • Anthropic (Claude):需明確 cache_control,Cache Read 可達 90% 折扣。
  • 其他:Gemini / Grok 等支援程度不同。

步驟教學(Anthropic 範例)

  1. 安裝 SDK:pip install anthropic
  2. 結構提示(靜態放前):
import anthropic

client = anthropic.Anthropic()

response = client.beta.prompt_caching.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    system=[
        {"type": "text", "text": "你是一位專業程式碼審核員..."},  # 靜態
        {"type": "text", "text": "<long static knowledge or tools>", "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": "動態查詢"}]
)
  1. 監控:檢查回應中的 usage.cache_read_input_tokens vs usage.input_tokens。目標命中率 >30%。
  2. 最佳實踐:靜態內容放最前;避免中途修改系統提示(會失效快取);適用於 Agent 循環、RAG 前綴。

OpenAI 自動版:只需確保前 1024+ Token 穩定,重複呼叫即可自動受益。

效果:多輪對話或固定工具 Agent,輸入成本可降 70–90%。

五、策略四:上下文管理與 RAG 優化(節省 40–70%)

原理:全歷史或全文件注入是最大浪費。需總結、壓縮、精準檢索。

步驟教學

  1. 歷史壓縮:每 N 輪用輕量模型總結:「將以下對話濃縮成關鍵事實(<300 Token)」。
  2. RAG 優化
    • 使用 reranker(bge-reranker)過濾 Top-K。
    • Chunk 壓縮或 hierarchical indexing。
    • 只注入最相關 3–5 個 chunk。
  3. LangChain / LlamaIndex 實作
    • 啟用 ConversationSummaryMemory。
    • 設定 retriever.search_kwargs={'k': 4}
  4. Semantic Caching:用向量 DB 快取常見問題 + 答案,命中即跳過 LLM。

六、其他高階策略

  • Batch API:非即時任務用 Batch,折扣 50%,步驟:在平台上傳 JSONL 檔,設定 completion_window="24h"
  • 混合部署:高頻固定任務用本地 Llama 3.1 / Qwen(邊際成本 ≈0);微調小模型處理領域任務。
  • 監控與警報:用 LangSmith / Helicone / 自訂 dashboard 追蹤每呼叫 Token;設定每日預算上限。

七、實戰 Checklist 與邊緣考量

立即行動 Checklist

  1. 計算 baseline(用 tiktoken 分析最近 100 呼叫)。
  2. 啟用 Prompt Caching + 路由(1 天內可見效)。
  3. 迭代提示 + 上下文壓縮(第 2–3 天)。
  4. 監控 1 周,調整比例。

風險與注意

  • 過度壓縮可能略降品質 → 加入 Human-in-the-Loop 或多模型驗證。
  • 快取失效:任何前綴改變都會重置,需嚴格管理靜態/動態分離。
  • 供應商鎖定:用 OpenRouter 聚合多平台,即時比價。
  • 隱私:敏感任務優先本地或企業版。
  • 未來趨勢:2026–2027 年,Caching + Agent 專用訂閱(月費封頂)將更普及。

透過這些系統性步驟,你不僅能大幅節省 Token,還能提升 Agent 速度與可擴展性。從小專案開始測試,逐步擴大——80% 以上節省是可重現的工程結果,而非運氣。建議立即審視你的當前呼叫模式,優先實施 Prompt Caching 與模型路由,效果最顯著。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐