advanced-evaluation by shipshitdev/library
npx skills add https://github.com/shipshitdev/library --skill advanced-evaluation用于评估 AI 输出的 LLM 即法官技术。这不是单一技术,而是一系列方法——选择合适的方法并减轻偏见是核心能力。
直接评分:单个 LLM 根据定义的量表对一个响应进行评分。
成对比较:LLM 比较两个响应并选择更好的一个。
| 偏见 | 描述 | 缓解措施 |
|---|---|---|
| 位置偏好 | 倾向于第一个位置 | 交换位置,检查一致性 |
| 长度偏好 | 更长 = 更高分数 | 明确提示,长度归一化评分 |
| 自我增强 | 模型给自己的输出评分更高 | 使用不同的模型进行评估 |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 冗长偏好 | 不必要的细节评分更高 | 特定标准的评分细则 |
| 权威偏好 | 自信的语气评分更高 | 要求提供证据引用 |
是否存在客观事实依据?
├── 是 → 直接评分(事实准确性、格式合规性)
└── 否 → 成对比较(语气、风格、创造力)
可与以下模块配合使用:
有关详细的实现模式、提示词模板、示例和指标: references/full-guide.md
另请参阅:references/implementation-patterns.md, references/bias-mitigation.md, references/metrics-guide.md
每周安装量
77
代码仓库
GitHub 星标数
16
首次出现
2026年1月20日
安全审计
已安装于
codex55
gemini-cli52
opencode52
claude-code50
cursor49
github-copilot44
LLM-as-a-Judge techniques for evaluating AI outputs. Not a single technique but a family of approaches - choosing the right one and mitigating biases is the core competency.
Direct Scoring : Single LLM rates one response on a defined scale.
Pairwise Comparison : LLM compares two responses and selects better one.
| Bias | Description | Mitigation |
|---|---|---|
| Position | First-position preference | Swap positions, check consistency |
| Length | Longer = higher scores | Explicit prompting, length-normalized scoring |
| Self-Enhancement | Models rate own outputs higher | Use different model for evaluation |
| Verbosity | Unnecessary detail rated higher | Criteria-specific rubrics |
| Authority | Confident tone rated higher | Require evidence citation |
Is there an objective ground truth?
├── Yes → Direct Scoring (factual accuracy, format compliance)
└── No → Pairwise Comparison (tone, style, creativity)
Works with:
For detailed implementation patterns, prompt templates, examples, and metrics: references/full-guide.md
See also: references/implementation-patterns.md, references/bias-mitigation.md, references/metrics-guide.md
Weekly Installs
77
Repository
GitHub Stars
16
First Seen
Jan 20, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykPass
Installed on
codex55
gemini-cli52
opencode52
claude-code50
cursor49
github-copilot44
AI 代码实施计划编写技能 | 自动化开发任务分解与 TDD 流程规划工具
50,900 周安装
二进制初步分析指南:使用ReVa工具快速识别恶意软件与逆向工程
69 周安装
PrivateInvestigator 道德人员查找工具 | 公开数据调查、反向搜索与背景研究
69 周安装
TorchTitan:PyTorch原生分布式大语言模型预训练平台,支持4D并行与H100 GPU加速
69 周安装
screenshot 截图技能:跨平台桌面截图工具,支持macOS/Linux权限管理与多模式捕获
69 周安装
tmux进程管理最佳实践:交互式Shell初始化、会话命名与生命周期管理
69 周安装
Git Rebase Sync:安全同步分支的Git变基工具,解决冲突与备份
69 周安装