AI模型层级优化指南：智能任务路由与成本控制策略

model-hierarchy by aaaaqwq/agi-super-skills

1 周安装量

11 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/aaaaqwq/agi-super-skills --skill model-hierarchy

AI/机器学习自动化性能优化

🇨🇳中文介绍

模型层级

将任务路由到能够处理它们的最便宜模型。大多数智能体工作是常规性的。

核心原则

80% 的智能体任务是日常维护性的。 文件读取、状态检查、格式化、简单的问答。这些不需要昂贵的模型。将高级模型留给真正需要深度推理的问题。

模型层级

第 1 层：廉价模型 ($0.10-0.50/百万令牌)

模型	输入	输出	最佳用途
DeepSeek V3	$0.14	$0.28	常规通用工作
GPT-4o-mini	$0.15	$0.60	快速响应
Claude Haiku	$0.25	$1.25	快速工具使用
Gemini Flash	$0.075	$0.30	高吞吐量
GLM 5 (智谱)	(OpenRouter Z.AI)	(OpenRouter Z.AI)	常规 + 中等文本；200K 上下文； — 不要用于图像/视觉任务

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

第 2 层：中等模型 ($1-5/百万令牌)

模型	输入	输出	最佳用途
Claude Sonnet	$3.00	$15.00	平衡性能
GPT-4o	$2.50	$10.00	多模态任务
Gemini Pro	$1.25	$5.00	长上下文

第 3 层：高级模型 ($10-75/百万令牌)

模型	输入	输出	最佳用途
Claude Opus	$15.00	$75.00	复杂推理
GPT-4.5	$75.00	$150.00	前沿任务
o1	$15.00	$60.00	多步推理
o3-mini	$1.10	$4.40	经济型推理

价格截至 2026 年 2 月。请查阅供应商文档获取当前费率。

在执行任何任务之前，先进行分类：

常规 → 使用第 1 层

需要图像/视觉 → 不要分配给仅文本模型 (GLM 5 等)。使用来自第 1/2 层或第 3 层的具备视觉能力的模型 (例如 Kimi K2.5, GPT-4o, Gemini, Claude, GLM-4.5V)。

单步操作
清晰、明确的指令
无需判断
预期输出是确定性的

文件读/写操作
状态检查和健康监控
简单查询 (时间、天气、定义)
文本格式化和重构
列表操作 (过滤、排序、转换)
使用已知参数的 API 调用
心跳和定时任务
URL 抓取和基本解析

中等 → 使用第 2 层

多步骤但定义明确
需要一些综合处理
适用标准模式
质量重要但不关键

代码生成 (标准模式)
摘要和综合
草稿撰写 (电子邮件、文档、消息)
数据分析和转换
多文件操作
工具编排
代码审查 (非安全性)
搜索和研究任务

复杂 → 使用第 3 层

需要新颖的解决问题方法
存在多种有效方法
需要细微的判断
高风险或不可逆
先前尝试已失败

多步调试
架构和设计决策
安全敏感的代码审查
较便宜模型已失败的任务
需要解释的模糊需求
长上下文推理 (>50K 令牌)
需要原创性的创意工作
对抗性或边缘情况处理

function selectModel(task):
    # 规则 1: 视觉覆盖 (第 1/2 层包含仅文本模型)
    if task.requiresImageInput or task.requiresVision:
        return VISION_CAPABLE_MODEL  # 例如 Kimi K2.5, GPT-4o, Gemini, Claude; 不要使用 GLM 5 或其他仅文本模型
    
    # 规则 2: 升级覆盖
    if task.previousAttemptFailed:
        return nextTierUp(task.previousModel)
    
    # 规则 3: 明确的复杂度信号
    if task.hasSignal("debug", "architect", "design", "security"):
        return TIER_3
    
    if task.hasSignal("write", "code", "summarize", "analyze"):
        return TIER_2
    
    # 规则 4: 默认分类
    complexity = classifyTask(task)
    
    if complexity == ROUTINE:
        return TIER_1
    elif complexity == MODERATE:
        return TIER_2
    else:
        return TIER_3

交互式工作默认使用第 2 层
执行常规工作时建议降级: "这是常规工作 — 我可以在更便宜的模型上处理，或者生成一个子智能体。"
遇到困难时请求升级: "这需要更强的推理能力。切换到 [高级模型]。"

默认使用第 1 层，除非任务明显属于中等或以上复杂度
批量处理类似任务以分摊开销
将失败报告给父智能体以便升级处理

对于自动化任务

心跳/监控 → 始终使用第 1 层
定时报告 → 根据复杂度使用第 1 层或第 2 层
警报响应 → 从第 2 层开始，需要时升级

建议模型变更时，使用清晰的语言：

"这看起来是常规的文件工作。需要我生成一个在 DeepSeek 上运行的子智能体来处理吗？结果相同，成本却低得多。"

"我在这里遇到了能力极限。这需要 Opus 级别的推理能力。正在切换升级。"

解释层级结构:

"我让 Sonnet 运行繁重的分析，同时让子智能体在 DeepSeek 上获取数据。这样可以在关键之处不牺牲质量的同时降低成本。"

假设平均每天使用 100K 令牌：

策略	月度成本	备注
纯 Opus	~$225	能力最强，花费最高
纯 Sonnet	~$45	适用于大多数工作的良好默认选择
纯 DeepSeek	~$8	便宜但处理难题能力有限
层级结构 (80/15/5)	~$19	集所有优点于一身

80/15/5 分配比例：

80% 常规任务在第 1 层 (~$6)
15% 中等任务在第 2 层 (~$7)
5% 复杂任务在第 3 层 (~$6)

结果：与纯高级模型相比，成本降低 10 倍，同时在复杂任务上保持同等质量。

# config.yml - 设置默认模型
model: anthropic/claude-sonnet-4

# 在会话中切换模型
/model opus  # 为复杂任务升级
/model deepseek  # 为常规任务降级

# 在廉价模型上生成子智能体
sessions_spawn:
  task: "抓取并解析这 50 个 URL"
  model: deepseek

OpenRouter (第 1 层，具备视觉或仅文本):

# 第 1 层，具备视觉 — Kimi K2.5 (多模态)
model: openrouter/moonshotai/kimi-k2.5
# 心跳、定时任务、涉及图像的任务：K2.5 处理文本和视觉。

# 第 1 层，仅文本 — GLM 5 (无视觉)
# model: openrouter/z-ai/glm-5  # 确切的 OpenRouter Z.AI ID 待定
# 仅用于常规文本任务；对于图像任务，请使用 Kimi K2.5 或其他具备视觉能力的模型。

# 在 CLAUDE.md 或项目说明中
当生成后台智能体时，使用 claude-3-haiku 处理：
- 文件操作
- 简单搜索  
- 状态检查

保留 claude-sonnet-4 用于：
- 代码生成
- 分析任务

通用智能体系统

def get_model_for_task(task_description: str) -> str:
    routine_signals = ['read', 'fetch', 'check', 'list', 'format', 'status']
    complex_signals = ['debug', 'architect', 'design', 'security', 'why']
    
    desc_lower = task_description.lower()
    
    if any(signal in desc_lower for signal in complex_signals):
        return "claude-opus-4"
    elif any(signal in desc_lower for signal in routine_signals):
        return "deepseek-v3"
    else:
        return "claude-sonnet-4"

在 Opus 上运行心跳任务
使用高级模型进行文件 I/O 操作
任务明显是常规时仍保持使用昂贵模型
默认在高级模型上生成子智能体
使用 GLM 5 (或任何仅文本的第 1/2 层模型) 处理图像/视觉任务 — 例如照片分析、截图理解、图像生成技能，或任何需要图像输入的工具

从中等层级开始，根据任务调整
在最便宜的可行模型上生成助手
遇到困难时明确请求升级
跟踪每种任务类型的成本以进一步优化

为您的用例进行自定义：

根据您的供应商/预算调整层级定义
在分类规则中添加特定领域的信号
跟踪实际复杂度与预测值的差异以改进启发式方法
设置预算警报以捕获失控的高级模型使用

🇺🇸English

Model Hierarchy

Route tasks to the cheapest model that can handle them. Most agent work is routine.

Core Principle

80% of agent tasks are janitorial. File reads, status checks, formatting, simple Q&A. These don't need expensive models. Reserve premium models for problems that actually require deep reasoning.

Model Tiers

Tier 1: Cheap ($0.10-0.50/M tokens)

Model	Input	Output	Best For
DeepSeek V3	$0.14	$0.28	General routine work
GPT-4o-mini	$0.15	$0.60	Quick responses
Claude Haiku	$0.25	$1.25	Fast tool use
Gemini Flash	$0.075	$0.30	High volume
GLM 5 (Zhipu)	(OpenRouter Z.AI)	(OpenRouter Z.AI)	Routine + moderate text; 200K context; text-only — do not use for image/vision
Kimi K2.5 (Moonshot)	$0.45	$2.25	Routine + moderate; 262K context; multimodal (text + image + video)

Text-only models (e.g. GLM 5): Do not use for any task that requires image input or vision — no photo analysis, screenshots, image-generation tools, or document/chart vision. Route to a vision-capable model (e.g. Kimi K2.5, GPT-4o, Gemini, Claude with vision, GLM-4.5V/4.6V).

Vision-capable Tier 1/2 (e.g. Kimi K2.5): Use for routine or moderate tasks that may involve images — screenshots, photo analysis, docs, image-generation orchestration — without moving to premium vision models.

Tier 2: Mid ($1-5/M tokens)

Model	Input	Output	Best For
Claude Sonnet	$3.00	$15.00	Balanced performance
GPT-4o	$2.50	$10.00	Multimodal tasks
Gemini Pro	$1.25	$5.00	Long context

Tier 3: Premium ($10-75/M tokens)

Model	Input	Output	Best For
Claude Opus	$15.00	$75.00	Complex reasoning
GPT-4.5	$75.00	$150.00	Frontier tasks
o1	$15.00	$60.00	Multi-step reasoning
o3-mini	$1.10	$4.40	Reasoning on budget

Prices as of Feb 2026. Check provider docs for current rates.

Task Classification

Before executing any task, classify it:

ROUTINE → Use Tier 1

Requires image/vision → Do not assign to text-only models (GLM 5, etc.). Use a vision-capable model from Tier 1/2 or 3 (e.g. Kimi K2.5, GPT-4o, Gemini, Claude, GLM-4.5V).

Characteristics:

Single-step operations
Clear, unambiguous instructions
No judgment required
Deterministic output expected

Examples:

File read/write operations
Status checks and health monitoring
Simple lookups (time, weather, definitions)
Formatting and restructuring text
List operations (filter, sort, transform)
API calls with known parameters
Heartbeat and cron tasks
URL fetching and basic parsing

MODERATE → Use Tier 2

Characteristics:

Multi-step but well-defined
Some synthesis required
Standard patterns apply
Quality matters but isn't critical

Examples:

Code generation (standard patterns)
Summarization and synthesis
Draft writing (emails, docs, messages)
Data analysis and transformation
Multi-file operations
Tool orchestration
Code review (non-security)
Search and research tasks

COMPLEX → Use Tier 3

Characteristics:

Novel problem solving required
Multiple valid approaches
Nuanced judgment calls
High stakes or irreversible
Previous attempts failed

Examples:

Multi-step debugging
Architecture and design decisions
Security-sensitive code review
Tasks where cheaper model already failed
Ambiguous requirements needing interpretation
Long-context reasoning (>50K tokens)
Creative work requiring originality
Adversarial or edge-case handling

Decision Algorithm

function selectModel(task):
    # Rule 1: Vision override (Tier 1/2 includes text-only models)
    if task.requiresImageInput or task.requiresVision:
        return VISION_CAPABLE_MODEL  # e.g. Kimi K2.5, GPT-4o, Gemini, Claude; do not use GLM 5 or other text-only
    
    # Rule 2: Escalation override
    if task.previousAttemptFailed:
        return nextTierUp(task.previousModel)
    
    # Rule 3: Explicit complexity signals
    if task.hasSignal("debug", "architect", "design", "security"):
        return TIER_3
    
    if task.hasSignal("write", "code", "summarize", "analyze"):
        return TIER_2
    
    # Rule 4: Default classification
    complexity = classifyTask(task)
    
    if complexity == ROUTINE:
        return TIER_1
    elif complexity == MODERATE:
        return TIER_2
    else:
        return TIER_3

Behavioral Rules

For Main Session

Default to Tier 2 for interactive work
Suggest downgrade when doing routine work: "This is routine - I can handle this on a cheaper model or spawn a sub-agent."
Request upgrade when stuck: "This needs more reasoning power. Switching to [premium model]."

For Sub-Agents

Default to Tier 1 unless task is clearly moderate+
Batch similar tasks to amortize overhead
Report failures back to parent for escalation

For Automated Tasks

Heartbeats/monitoring → Always Tier 1
Scheduled reports → Tier 1 or 2 based on complexity
Alert responses → Start Tier 2, escalate if needed

Communication Patterns

When suggesting model changes, use clear language:

Downgrade suggestion:

"This looks like routine file work. Want me to spawn a sub-agent on DeepSeek for this? Same result, fraction of the cost."

Upgrade request:

"I'm hitting the limits of what I can figure out here. This needs Opus-level reasoning. Switching up."

Explaining hierarchy:

"I'm running the heavy analysis on Sonnet while sub-agents fetch the data on DeepSeek. Keeps costs down without sacrificing quality where it matters."

Cost Impact

Assuming 100K tokens/day average usage:

Strategy	Monthly Cost	Notes
Pure Opus	~$225	Maximum capability, maximum spend
Pure Sonnet	~$45	Good default for most work
Pure DeepSeek	~$8	Cheap but limited on hard problems
Hierarchy (80/15/5)	~$19	Best of all worlds

The 80/15/5 split:

80% routine tasks on Tier 1 (~$6)
15% moderate tasks on Tier 2 (~$7)
5% complex tasks on Tier 3 (~$6)

Result: 10x cost reduction vs pure premium, with equivalent quality on complex tasks.

Integration Examples

OpenClaw

# config.yml - set default model
model: anthropic/claude-sonnet-4

# In session, switch models
/model opus  # upgrade for complex task
/model deepseek  # downgrade for routine

# Spawn sub-agent on cheap model
sessions_spawn:
  task: "Fetch and parse these 50 URLs"
  model: deepseek

OpenRouter (Tier 1 with vision or text-only):

# Tier 1 with vision — Kimi K2.5 (multimodal)
model: openrouter/moonshotai/kimi-k2.5
# Heartbeats, cron, image-involving tasks: K2.5 handles text and vision.

# Tier 1 text-only — GLM 5 (no vision)
# model: openrouter/z-ai/glm-5  # exact ID TBD on OpenRouter Z.AI
# Routine text-only only; for image tasks use Kimi K2.5 or another vision-capable model.

Claude Code

# In CLAUDE.md or project instructions
When spawning background agents, use claude-3-haiku for:
- File operations
- Simple searches  
- Status checks

Reserve claude-sonnet-4 for:
- Code generation
- Analysis tasks

General Agent Systems

def get_model_for_task(task_description: str) -> str:
    routine_signals = ['read', 'fetch', 'check', 'list', 'format', 'status']
    complex_signals = ['debug', 'architect', 'design', 'security', 'why']
    
    desc_lower = task_description.lower()
    
    if any(signal in desc_lower for signal in complex_signals):
        return "claude-opus-4"
    elif any(signal in desc_lower for signal in routine_signals):
        return "deepseek-v3"
    else:
        return "claude-sonnet-4"

Anti-Patterns

DON'T:

Run heartbeats on Opus
Use premium models for file I/O
Keep expensive model when task is clearly routine
Spawn sub-agents on premium models by default
Use GLM 5 (or any text-only Tier 1/2 model) for image/vision tasks — e.g. photo analysis, screenshot understanding, image-generation skills, or any tool that takes image input

DO:

Start mid-tier, adjust based on task
Spawn helpers on cheapest viable model
Escalate explicitly when stuck
Track cost per task type to optimize further

Extending This Skill

To customize for your use case:

Adjust tier definitions based on your provider/budget
Add domain-specific signals to classification rules
Track actual complexity vs predicted to improve heuristics
Set budget alerts to catch runaway premium usage

Weekly Installs

Repository

aaaaqwq/agi-super-skills

GitHub Stars

First Seen

1 day ago

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

zencoder1

amp1

cline1

openclaw1

opencode1

cursor1

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

60,400 周安装

AI模型层级优化指南：智能任务路由与成本控制策略

🇨🇳中文介绍

模型层级

核心原则

模型层级

第 1 层：廉价模型 ($0.10-0.50/百万令牌)

相关 Skills

第 2 层：中等模型 ($1-5/百万令牌)

第 3 层：高级模型 ($10-75/百万令牌)

任务分类

常规 → 使用第 1 层

中等 → 使用第 2 层

复杂 → 使用第 3 层

决策算法

行为规则

对于主会话

对于子智能体

对于自动化任务

沟通模式

成本影响

集成示例

OpenClaw

Claude 代码

通用智能体系统

反面模式

扩展此技能

🇺🇸English

Model Hierarchy

Core Principle

Model Tiers

Tier 1: Cheap ($0.10-0.50/M tokens)

Tier 2: Mid ($1-5/M tokens)

Tier 3: Premium ($10-75/M tokens)

Task Classification

ROUTINE → Use Tier 1

MODERATE → Use Tier 2

COMPLEX → Use Tier 3

Decision Algorithm

Behavioral Rules

For Main Session

For Sub-Agents

For Automated Tasks

Communication Patterns

Cost Impact

Integration Examples

OpenClaw

Claude Code

General Agent Systems

Anti-Patterns

Extending This Skill

最新 Skills