代码成熟度评估器 - Trail of Bits 9大类别智能合约安全与质量评估框架

code-maturity-assessor by trailofbits/skills

1,200 周安装量

3,900 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/trailofbits/skills --skill code-maturity-assessor

区块链测试安全

🇨🇳中文介绍

代码成熟度评估器

目的

使用 Trail of Bits 的 9 类别框架系统性地评估代码库成熟度。提供基于证据的评级和可操作的建议。

框架 : Building Secure Contracts - Code Maturity Evaluation v0.1.0

工作原理

阶段 1：探索

探索代码库以了解：

项目结构和平台
合约/模块文件
测试覆盖率
文档可用性

阶段 2：分析

对于 9 个类别中的每一个，我将：

搜索代码 以查找相关模式
阅读关键文件 以评估实现情况
呈现发现结果 并附上文件引用
提出澄清性问题 以了解无法在代码中看到的过程
根据标准确定评级

阶段 3：报告

生成：

执行摘要
成熟度记分卡（所有 9 个类别的评级）
包含证据的详细分析
按优先级排序的改进路线图

评级系统

缺失 (0) : 不存在/未实现
薄弱 (1) : 需要多项重大改进
中等 (2) : 足够，可以改进
良好 (3) : 高于平均水平，需要微小改进
: 卓越，仅可能进行微小改进

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

常见误区（请勿跳过）

错误认知	为何错误	必需行动
"发现了一些问题，评估完成"	评估需要评估所有 9 个类别	完成所有 9 个类别的评估，并为每个类别提供证据
"我看到了事件，审计类别看起来不错"	仅有事件不等于审计成熟度	检查日志的全面性、测试、事件响应流程
"代码看起来简单，复杂度低"	视觉上的简单掩盖了组合复杂度	分析圈复杂度、依赖深度、状态机转换
"不是 DeFi 协议，MEV 类别不适用"	MEV 超出了 DeFi 范围（治理、NFT、游戏）	在声明不适用之前，通过交易排序分析进行验证
"未找到汇编，低级类别不适用"	低级风险包括外部调用、delegatecall、内联汇编	在跳过类别之前，搜索所有低级模式
"这花费太长时间了"	彻底的评估需要每个类别都花费时间	完成所有 9 个类别，询问有关链下流程的澄清性问题
"我可以在没有证据的情况下进行评级"	没有文件:行号引用的评级 = 无根据的主张	为每个类别评估收集具体的代码证据
"用户会知道如何改进"	模糊的指导 = 没有行动	提供按优先级排序的路线图，包含具体的改进措施和工作量估算

有关详细的报告结构和模板，请参阅 REPORT_FORMAT.md。

执行摘要
- 项目名称和平台
- 总体成熟度（平均评级）
- 前 3 项优势
- 前 3 项关键差距
- 优先级建议
成熟度记分卡
- 包含所有 9 个类别的表格
- 评级和分数
- 关键发现说明
详细分析
- 按类别细分
- 包含文件:行号引用的证据
- 差距和改进措施
改进路线图
- 关键（立即）
- 高（1-2 个月）
- 中（2-4 个月）
- 工作量估算和影响

预计时间 : 30-40 分钟

访问完整的代码库
您对流程的了解（监控、事件响应、团队实践）
项目背景信息（DeFi、NFT、基础设施等）

让我们开始评估这个代码库！

🇺🇸English

Code Maturity Assessor

Purpose

Systematically assesses codebase maturity using Trail of Bits' 9-category framework. Provides evidence-based ratings and actionable recommendations.

Framework : Building Secure Contracts - Code Maturity Evaluation v0.1.0

How This Works

Phase 1: Discovery

Explores the codebase to understand:

Project structure and platform
Contract/module files
Test coverage
Documentation availability

Phase 2: Analysis

For each of 9 categories, I'll:

Search the code for relevant patterns
Read key files to assess implementation
Present findings with file references
Ask clarifying questions about processes I can't see in code
Determine rating based on criteria

Phase 3: Report

Generates:

Executive summary
Maturity scorecard (ratings for all 9 categories)
Detailed analysis with evidence
Priority-ordered improvement roadmap

Rating System

Missing (0) : Not present/not implemented
Weak (1) : Several significant improvements needed
Moderate (2) : Adequate, can be improved
Satisfactory (3) : Above average, minor improvements
Strong (4) : Exceptional, only small improvements possible

Rating Logic :

ANY "Weak" criteria → Weak
NO "Weak" + SOME "Moderate" unmet → Moderate
ALL "Moderate" + SOME "Satisfactory" met → Satisfactory
ALL "Satisfactory" + exceptional practices → Strong

The 9 Categories

I assess 9 comprehensive categories covering all aspects of code maturity. For detailed criteria, analysis approaches, and rating thresholds, see ASSESSMENT_CRITERIA.md.

Quick Reference:

1. ARITHMETIC

Overflow protection mechanisms
Precision handling and rounding
Formula specifications
Edge case testing

2. AUDITING

Event definitions and coverage
Monitoring infrastructure
Incident response planning

3. AUTHENTICATION / ACCESS CONTROLS

Privilege management
Role separation
Access control testing
Key compromise scenarios

4. COMPLEXITY MANAGEMENT

Function scope and clarity
Cyclomatic complexity
Inheritance hierarchies
Code duplication

5. DECENTRALIZATION

Centralization risks
Upgrade control mechanisms
User opt-out paths
Timelock/multisig patterns

6. DOCUMENTATION

Specifications and architecture
Inline code documentation
User stories
Domain glossaries

7. TRANSACTION ORDERING RISKS

MEV vulnerabilities
Front-running protections
Slippage controls
Oracle security

8. LOW-LEVEL MANIPULATION

Assembly usage
Unsafe code sections
Low-level calls
Justification and testing

9. TESTING & VERIFICATION

Test coverage
Fuzzing and formal verification
CI/CD integration
Test quality

For complete assessment criteria including what I'll analyze, what I'll ask you, and detailed rating thresholds (WEAK/MODERATE/SATISFACTORY/STRONG), see ASSESSMENT_CRITERIA.md.

Example Output

When the assessment is complete, you'll receive a comprehensive maturity report including:

Executive Summary : Overall score, top 3 strengths, top 3 gaps, priority recommendations
Maturity Scorecard : Table with all 9 categories rated with scores and notes
Detailed Analysis : Category-by-category breakdown with evidence (file:line references)
Improvement Roadmap : Priority-ordered recommendations (CRITICAL/HIGH/MEDIUM) with effort estimates

For a complete example assessment report, see EXAMPLE_REPORT.md.

Assessment Process

When invoked, I will:

Explore codebase
- Find contract/module files
- Identify test files
- Locate documentation
Analyze each category
- Search for relevant code patterns
- Read key implementations
- Assess against criteria
- Collect evidence
Interactive assessment
- Present my findings with file references
- Ask about processes I can't see in code
- Discuss borderline cases
- Determine ratings together
Generate report
- Executive summary
- Maturity scorecard table
- Detailed category analysis with evidence
- Priority-ordered improvement roadmap

Rationalizations (Do Not Skip)

Rationalization	Why It's Wrong	Required Action
"Found some findings, assessment complete"	Assessment requires evaluating ALL 9 categories	Complete assessment of all 9 categories with evidence for each
"I see events, auditing category looks good"	Events alone don't equal auditing maturity	Check logging comprehensiveness, testing, incident response processes
"Code looks simple, complexity is low"	Visual simplicity masks composition complexity	Analyze cyclomatic complexity, dependency depth, state machine transitions
"Not a DeFi protocol, MEV category doesn't apply"	MEV extends beyond DeFi (governance, NFTs, games)	Verify with transaction ordering analysis before declaring N/A
"No assembly found, low-level category is N/A"	Low-level risks include external calls, delegatecall, inline assembly	Search for all low-level patterns before skipping category
"This is taking too long"	Thorough assessment requires time per category	Complete all 9 categories, ask clarifying questions about off-chain processes
"I can rate this without evidence"	Ratings without file:line references = unsubstantiated claims

Report Format

For detailed report structure and templates, see REPORT_FORMAT.md.

Structure:

Executive Summary
- Project name and platform
- Overall maturity (average rating)
- Top 3 strengths
- Top 3 critical gaps
- Priority recommendations
Maturity Scorecard
- Table with all 9 categories
- Ratings and scores
- Key findings notes
Detailed Analysis
- Per-category breakdown
- Evidence with file:line references
- Gaps and improvement actions
Improvement Roadmap
- CRITICAL (immediate)
- HIGH (1-2 months)
- MEDIUM (2-4 months)
- Effort estimates and impact

Ready to Begin

Estimated Time : 30-40 minutes

I'll need :

Access to full codebase
Your knowledge of processes (monitoring, incident response, team practices)
Context about the project (DeFi, NFT, infrastructure, etc.)

Let's assess this codebase!

Weekly Installs

1.2K

Repository

trailofbits/skills

GitHub Stars

3.9K

First Seen

Jan 19, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code1.0K

opencode984

gemini-cli963

codex958

cursor941

github-copilot902