LLM即法官技术：高级评估方法指南 - 自动化AI输出评估与偏见缓解

advanced-evaluation by shipshitdev/library

77 周安装量

16 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/shipshitdev/library --skill advanced-evaluation

AI/机器学习测试提示工程

🇨🇳中文介绍

高级评估

用于评估 AI 输出的 LLM 即法官技术。这不是单一技术，而是一系列方法——选择合适的方法并减轻偏见是核心能力。

何时启用

为 LLM 输出构建自动化评估流水线时
比较多个模型响应以选择最佳方案时
建立一致的质量标准时
调试不一致的评估结果时
为提示词或模型变更设计 A/B 测试时
为人工或自动化评估创建评分标准时

核心概念

评估分类法

直接评分：单个 LLM 根据定义的量表对一个响应进行评分。

最适合：客观标准（事实准确性、指令遵循、毒性）
可靠性：对于定义明确的标准，可靠性为中等至高

成对比较：LLM 比较两个响应并选择更好的一个。

最适合：主观偏好（语气、风格、说服力）
可靠性：对于偏好判断，比直接评分更高

已知偏见

偏见	描述	缓解措施
位置偏好	倾向于第一个位置	交换位置，检查一致性
长度偏好	更长 = 更高分数	明确提示，长度归一化评分
自我增强	模型给自己的输出评分更高	使用不同的模型进行评估

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

🇺🇸English

Advanced Evaluation

LLM-as-a-Judge techniques for evaluating AI outputs. Not a single technique but a family of approaches - choosing the right one and mitigating biases is the core competency.

When to Activate

Building automated evaluation pipelines for LLM outputs
Comparing multiple model responses to select the best one
Establishing consistent quality standards
Debugging inconsistent evaluation results
Designing A/B tests for prompt or model changes
Creating rubrics for human or automated evaluation

Core Concepts

Evaluation Taxonomy

Direct Scoring : Single LLM rates one response on a defined scale.

Best for: Objective criteria (factual accuracy, instruction following, toxicity)
Reliability: Moderate to high for well-defined criteria

Pairwise Comparison : LLM compares two responses and selects better one.

Best for: Subjective preferences (tone, style, persuasiveness)
Reliability: Higher than direct scoring for preferences

Known Biases

Bias	Description	Mitigation
Position	First-position preference	Swap positions, check consistency
Length	Longer = higher scores	Explicit prompting, length-normalized scoring
Self-Enhancement	Models rate own outputs higher	Use different model for evaluation
Verbosity	Unnecessary detail rated higher	Criteria-specific rubrics
Authority	Confident tone rated higher	Require evidence citation

Decision Framework

Is there an objective ground truth?
├── Yes → Direct Scoring (factual accuracy, format compliance)
└── No → Pairwise Comparison (tone, style, creativity)

Quick Reference

Direct Scoring Requirements

Clear criteria definitions
Calibrated scale (1-5 recommended)
Chain-of-thought: justification BEFORE score (improves reliability 15-25%)

Pairwise Comparison Protocol

First pass: A in first position
Second pass: B in first position (swap)
Consistency check: If passes disagree → TIE
Final verdict: Consistent winner with averaged confidence

Rubric Components

Level descriptions with clear boundaries
Observable characteristics per level
Edge case guidance
Strictness calibration (lenient/balanced/strict)

Integration

Works with:

context-fundamentals - Effective context structure
tool-design - Evaluation tool schemas
evaluation (foundational) - Core evaluation concepts

For detailed implementation patterns, prompt templates, examples, and metrics: references/full-guide.md

See also: references/implementation-patterns.md, references/bias-mitigation.md, references/metrics-guide.md

Weekly Installs

Repository

shipshitdev/library

GitHub Stars

First Seen

Jan 20, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

codex55

gemini-cli52

opencode52

claude-code50

cursor49

github-copilot44