[AI] Token 節省深度攻略:從原理到實戰步驟，實現 50–90% 成本降低

HK2KING

525人浏览 · 2026-05-22 09:45:32

HK2KING · 2026-05-22 09:45:32 发布

AI Token 節省深度攻略：從原理到實戰步驟，實現 50–90% 成本降低

在 2026 年的 AI 開發中，Token 消耗是最大成本痛點。一次 Agent 循環或長上下文 RAG 查詢，可能輕鬆消耗數萬至數百萬 Token，累積成高額賬單。本攻略針對「如何有效節省 Token」進行詳細拆解，涵蓋原理、量化影響、具體實施步驟、程式碼範例、常見陷阱與邊緣考量。結合業界最佳實踐（模型路由、提示優化、Prompt Caching、上下文管理等），幫助你系統性降低 50–90% 成本，同時維持或提升輸出品質。

一、Token 消耗的本質與量化分析

核心公式：
總成本 = (輸入 Token × 輸入單價) + (輸出 Token × 輸出單價)

輸入 Token：佔比通常最高（70–90%），來源包括系統提示、對話歷史、RAG 檢索結果、工具描述、大文件等。
輸出 Token：單價較高（常為輸入的 2–5 倍），但可透過明確指令大幅壓縮。
典型浪費比例（未優化 Agent）：系統提示重複 30%、歷史上下文膨脹 40%、簡單任務用強模型 20–30%。

量化基準：一個每日 1000 次呼叫的 Agent，未優化月成本可能 500–2000 美元；優化後可降至 100–400 美元。

二、策略一：智能模型路由（最高槓桿，節省 50–80%）

原理：不同任務難度差異巨大，無需每次都用頂級模型（Claude Opus / GPT-5 高階）。簡單任務用輕量模型，品質損失極小甚至無。

步驟教學：

任務分類：定義 3–4 層級（簡單：分類/提取；中等：程式碼生成/一般推理；複雜：創新規劃/多步推理）。
選擇模型：
- 簡單：GPT-4o mini、Kimi、GLM-4-Air、DeepSeek-V3（成本 1/10–1/5）。
- 中等：Claude Sonnet、GPT-5.2 中階。
- 複雜：Opus / 高階模型（控制在 10–20% 比例）。
實施路由：
- 使用 LiteLLM / OpenRouter / 自訂 Router。
- 範例（Python + LiteLLM）：

from litellm import completion
import json

def route_and_call(task: str, complexity: str = "auto"):
    if complexity == "simple" or ("extract" in task.lower() or len(task) < 200):
        model = "gpt-4o-mini"  # 或 "kimi" 
    elif complexity == "medium":
        model = "claude-3-5-sonnet"
    else:
        model = "claude-opus-4"
    
    response = completion(
        model=model,
        messages=[{"role": "user", "content": task}],
        temperature=0.7
    )
    print(f"使用模型: {model} | Token: {response.usage}")
    return response

進階：用小型分類器（甚至另一個輕量 LLM）自動判斷複雜度；監控 dashboard 追蹤各模型用量比例。
測試迭代：A/B 測試 100 個任務，確保品質 >95% 時再全面切換。

預期效果：80% 任務走輕量模型，即可省 60%+。

三、策略二：提示詞工程與壓縮（節省 30–70%）

原理：冗餘文字、模糊指令、無用輸出都會浪費 Token。精簡 + 結構化可大幅減少輸入/輸出。

步驟教學：

精簡原則：
- 去除問候/重複角色描述。
- 指定輸出格式（JSON、Markdown 表格）。
- 加入長度限制：「用最多 150 字回答」或 max_tokens=300。
Few-shot 優化：僅用 1–2 個最相關範例，壓縮描述。
結構化輸出：使用 Pydantic / Function Calling，讓模型只輸出必要欄位。
壓縮工具：
- 使用 tiktoken 計算 Token 數，迭代提示直到 < 原長 70%。
- Prompt Compression 庫（如 LLMLingua）自動壓縮。

範例前後對比：

前（浪費）：「你是一位優秀的 AI 助手，請詳細分析以下內容，包括背景、優點、缺點，並給出建議…」（高 Token + 冗長輸出）。
後（節省）：{"role": "system", "content": "分析以下內容，輸出 JSON: {'summary': str, 'pros': list, 'cons': list}，總長 < 200 字"}。

實測：輸出 Token 可減少 40–60%。

四、策略三：Prompt Caching（最高性價比，節省 50–90% 輸入 Token）

原理：供應商對重複的前綴提示（系統指令、工具描述、知識庫）快取 KV 矩陣，後續讀取僅收 10–50% 費用。

供應商差異：

OpenAI：自動（>1024 Token 前綴），Cache Read 約 50% 折扣。
Anthropic (Claude)：需明確 cache_control，Cache Read 可達 90% 折扣。
其他：Gemini / Grok 等支援程度不同。

步驟教學（Anthropic 範例）：

安裝 SDK：pip install anthropic。
結構提示（靜態放前）：

import anthropic

client = anthropic.Anthropic()

response = client.beta.prompt_caching.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    system=[
        {"type": "text", "text": "你是一位專業程式碼審核員..."},  # 靜態
        {"type": "text", "text": "<long static knowledge or tools>", "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": "動態查詢"}]
)

監控：檢查回應中的 usage.cache_read_input_tokens vs usage.input_tokens。目標命中率 >30%。
最佳實踐：靜態內容放最前；避免中途修改系統提示（會失效快取）；適用於 Agent 循環、RAG 前綴。

OpenAI 自動版：只需確保前 1024+ Token 穩定，重複呼叫即可自動受益。

效果：多輪對話或固定工具 Agent，輸入成本可降 70–90%。

五、策略四：上下文管理與 RAG 優化（節省 40–70%）

原理：全歷史或全文件注入是最大浪費。需總結、壓縮、精準檢索。

步驟教學：

歷史壓縮：每 N 輪用輕量模型總結：「將以下對話濃縮成關鍵事實（<300 Token）」。
RAG 優化：
- 使用 reranker（bge-reranker）過濾 Top-K。
- Chunk 壓縮或 hierarchical indexing。
- 只注入最相關 3–5 個 chunk。
LangChain / LlamaIndex 實作：
- 啟用 ConversationSummaryMemory。
- 設定 retriever.search_kwargs={'k': 4}。
Semantic Caching：用向量 DB 快取常見問題 + 答案，命中即跳過 LLM。

六、其他高階策略

Batch API：非即時任務用 Batch，折扣 50%，步驟：在平台上傳 JSONL 檔，設定 completion_window="24h"。
混合部署：高頻固定任務用本地 Llama 3.1 / Qwen（邊際成本 ≈0）；微調小模型處理領域任務。
監控與警報：用 LangSmith / Helicone / 自訂 dashboard 追蹤每呼叫 Token；設定每日預算上限。