npx skills add https://github.com/aguirrerjg/skills --skill ai-solution-architect两种操作模式:
此技能是自包含的:所有方法都在这里和资源中。
自动检测使用哪种模式:
用户是否粘贴了代码、README、文件结构,或提到了现有仓库?
├─ 是 → 分析模式 (阶段 0)
│ 之后是否想设计改进或新版本?
│ └─ 是 → 过渡到设计模式 (阶段 1-5)
└─ 否 → 设计模式 (阶段 1-5)
当用户分享代码、README、文件结构、图表或描述现有项目时激活。
完整方法请阅读 resources/repo-analysis-guide.md。
提问(一次一个):
根据用户分享的材料,提取并组织:
系统地图(包含哪些部分以及如何连接):
检测到的架构模式:
Dos modos de operación:
Este skill es autocontenido : toda la metodología está aquí y en los resources.
Detecta automáticamente qué modo usar:
¿El usuario pegó código, README, estructura de archivos, o menciona un repo existente?
├─ SÍ → Modo ANALIZAR (Fase 0)
│ ¿Después quiere diseñar mejoras o una versión nueva?
│ └─ SÍ → Transición a Modo DISEÑAR (Fases 1-5)
└─ NO → Modo DISEÑAR (Fases 1-5)
Se activa cuando el usuario comparte código, README, estructura de archivos, diagramas, o describe un proyecto existente.
Lee resources/repo-analysis-guide.md para la metodología completa.
Pregunta (una a la vez):
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
如果受众是非技术人员**(管理层/投资者):**
使用以下规则:
非技术受众类比表:
| 技术概念 | 易于理解的类比 |
|---|---|
| RAG | "就像一个员工在回答问题前,会查阅公司档案以确保给出正确答案" |
| 向量数据库 | "一个智能目录,通过含义而非精确词汇查找文档——就像一位专家图书管理员" |
| 嵌入 | "将文本翻译成能捕捉其含义的数字代码,就像每个段落都有一个指纹" |
| LLM | "一个阅读了数百万文档的助手,可以撰写、总结和回答,但没有帮助就无法'了解'你的公司" |
| 分块 | "将一本书分成主题卡片,以便助手能快速找到相关卡片" |
| 微调 | "用你公司的例子训练助手,使其用你的语气说话并遵循你的规则" |
| API 网关 | "大楼的前台:控制谁进入,登记访客,并引导每个人到正确的楼层" |
| 数据管道 | "将原始文档转化为可立即使用的信息的装配线" |
| 护栏 | "防止助手说出不正确或不恰当内容的安全边界" |
| 编排器 | "协调每种乐器(组件)在何时演奏的乐队指挥" |
| 缓存 | "短期记忆:如果有人在 5 分钟前问了同样的问题,就不需要再次查找" |
| 令牌 | "文本单位(大约 ¾ 个单词)。是使用 AI 时消耗的'货币'" |
| 延迟 | "系统响应所需的时间,就像在餐厅等待的时间" |
| 重排序 | "第二道过滤器:在搜索到 20 个文档后,专家会重新排序,将最好的放在前面" |
| 上下文窗口 | "助手的'工作台':他同时能处理多少信息" |
如果受众是技术人员**:**
始终生成一个图表,并根据受众调整:
对于非技术人员 — 使用描述性名称的框:
graph LR
Usuario[👤 用户提问] --> Buscador[📚 文档搜索器]
Buscador --> Asistente[🤖 AI 助手]
Asistente --> Respuesta[💬 带来源的答案]
对于技术人员 — 实际组件:
graph TD
Client[Web App / API] --> Gateway[API Gateway]
Gateway --> Orch[Orchestrator - LangChain]
Orch --> Retrieval[Retrieval Pipeline]
Orch --> LLM[Claude Sonnet via API]
Retrieval --> VDB[(Qdrant - Vector DB)]
Retrieval --> BM25[BM25 - Keyword Search]
LLM --> Guards[Guardrails + Citation]
Guards --> Client
分析文档结构:
# 架构分析 — [项目名称]
## 这是什么?(1 段话,任何人都能理解)
## 它如何工作?(根据受众调整)
[Mermaid 图表]
[按层/组件的解释]
## 主要组件
| 组件 | 功能 | 技术 | 类比 |
|-----------|----------|-----------|---------|
## 数据流(逐步说明)
1. [步骤 1 — 使用受众语言]
2. [步骤 2...]
## 架构优势
- [设计良好的部分及原因]
## 改进机会
- [可以改进的部分及原因]
## 已识别的风险
- [技术或业务风险]
分析后,询问:"你想让我基于此设计一个改进版本或新架构吗?" 如果是 → 过渡到设计模式(阶段 1)。
阶段 1 → 阶段 2 → 阶段 3 → 阶段 4 → 阶段 5
架构头脑风暴 方法选择 架构层设计 技术栈评估 架构文档
顺序执行所有阶段。每个阶段产生交付物,作为下一阶段的输入。
灵感来自 Superpowers 的 Brainstorming 模式 (obra/superpowers)。
不要立即设计。首先,通过结构化的头脑风暴流程与用户一起探索问题,将模糊的想法提炼为清晰的需求。
头脑风暴规则:
头脑风暴流程:
探索上下文 → 澄清问题(一次一个) →
提出 2-3 种方法 → 分部分呈现设计 →
用户批准吗? → 否:修订 → 是:进入阶段 2
步骤 1.1:探索项目上下文 提出这些问题,一次一个,在下一个问题前等待回答:
步骤 1.2:AI 功能需求(一次一个问题)
步骤 1.3:约束条件(一次一个问题)
将空白处标记为 "⚠️ 待定义"。
步骤 1.4:提出 2-3 种方法
根据回答,提出 2-3 种替代性架构方法。对于每种方法,用约 100 字描述:
呈现这些方法并等待用户选择或要求更改。根据复杂性调整每个部分:如果直接则用几句话,如果复杂则提供更多细节。
步骤 1.5:验证
在进入阶段 2 之前,向用户确认:
只有当用户确认后才进入阶段 2。
使用决策树确定架构方法。完整细节请阅读 resources/decision-frameworks.md。
解决方案是否需要最新的或特定领域的知识?
├─ 是 → 什么类型的知识?
│ ├─ 自有文档/数据 → RAG
│ ├─ 特定领域行为 → 微调
│ └─ 两者 → 混合 (RAG + 微调)
│
├─ 否 → 是否需要执行操作?
│ ├─ 是 → 复杂度如何?
│ │ ├─ 1-3 个工具,线性流程 → 简单智能体 (ReAct)
│ │ └─ 多个步骤,分支 → 多智能体
│ └─ 否 → 提示工程 (基础 LLM 足够)
│
└─ 最佳可能结果
└─ 混合:RAG + 微调 + 智能体
权衡评估(强制性):
| 标准 | 提示工程 | RAG | 微调 | 混合 |
|---|---|---|---|---|
| 到 MVP 的时间 | ⭐⭐⭐⭐⭐ (几天) | ⭐⭐⭐⭐ (几周) | ⭐⭐ (几个月) | ⭐ (几个月) |
| 知识更新 | ❌ | ✅ | ❌ | ✅ |
| 领域准确性 | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 运营成本 | $ | $$ | $$$ | $$$$ |
| 基础设施复杂度 | 低 | 中 | 高 | 非常高 |
| 行为控制 | 低 | 中 | 高 | 非常高 |
| 幻觉 | 高 | 低 (配合检索) | 中 | 非常低 |
为用户的具体案例证明选择的合理性。
按层设计架构。每层的完整参考请阅读 resources/architecture-layers.md。
RAG 解决方案参考架构:
┌─────────────────────────────────────────────────────┐
│ 表示层 │
│ Web App / Mobile / API / Chat Interface / Slack Bot │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ 编排层 │
│ API Gateway → Orchestrator (LangChain/LlamaIndex) │
│ Session Manager → Memory Store → Rate Limiter │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ 智能层 │
│ ┌──────────┐ ┌──────────┐ ┌───────────────────┐ │
│ │ 检索 │ │ LLM │ │ 后处理 │ │
│ │ 管道 │ │ 网关 │ │ (护栏, │ │
│ │ │ │ │ │ 格式化) │ │
│ └──────────┘ └──────────┘ └───────────────────┘ │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ 数据与索引层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 文档 │ │ 嵌入 │ │ 向量 │ │
│ │ 管道 │ │ 服务 │ │ 存储 │ │
│ │ (摄取, │ │ │ │ │ │
│ │ 分块, │ │ │ │ │ │
│ │ 清洗) │ │ │ │ │ │
│ └──────────┘ └──────────┘ └──────────┘ │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ 基础设施层 │
│ Cloud Provider → Compute → Storage → Networking │
│ Monitoring → Logging → CI/CD → Security │
└─────────────────────────────────────────────────────┘
对于每一层,记录:
为每个提出的架构变体生成 Mermaid 图表。
完整的选择矩阵请阅读 resources/tech-stack-matrices.md。
对于每个关键组件,使用加权标准评估选项:
4.1 LLM 模型
| 标准 | 权重 | GPT-4o | Claude Sonnet | Claude Opus | Gemini 2.5 | 开源 (Llama/Mistral) |
|---|---|---|---|---|---|---|
| 回答质量 | 25% | |||||
| 延迟 | 20% | |||||
| 每令牌成本 | 20% | |||||
| 上下文窗口 | 15% | |||||
| 隐私/本地部署 | 10% | |||||
| 生态系统/工具 | 10% |
4.2 向量数据库 (如果使用 RAG)
| 标准 | 权重 | Pinecone | Qdrant | Chroma | Weaviate | pgvector | Milvus |
|---|---|---|---|---|---|---|---|
| 设置简易性 | 20% | ||||||
| 可扩展性 | 20% | ||||||
| 混合搜索 | 15% | ||||||
| 成本 | 15% | ||||||
| 过滤/元数据 | 15% | ||||||
| 社区/支持 | 15% |
4.3 编排框架
| 标准 | 权重 | LangChain | LlamaIndex | Haystack | 自定义 |
|---|---|---|---|---|---|
| 原生 RAG | 25% | ||||
| 灵活性 | 20% | ||||
| 学习曲线 | 20% | ||||
| 生产就绪 | 20% | ||||
| 社区 | 15% |
4.4 分块策略 (如果使用 RAG)
| 策略 | 何时使用 | 典型分块大小 |
|---|---|---|
| 固定大小 | 同质化文档 | 512-1024 令牌 |
| 语义分块 | 内容多样,多个主题 | 可变 |
| 基于文档 | 结构化 PDF,论文 | 按章节 |
| 句子窗口 | 需要高精度 | 1-3 个句子 + 上下文 |
| 父子分块 | 需要广泛上下文 + 精度 | 子块:256,父块:2048 |
4.5 嵌入策略
| 模型 | 维度 | 优势 | 何时使用 |
|---|---|---|---|
| text-embedding-3-large (OpenAI) | 3072 | 整体质量最佳 | 生产环境,预算允许 |
| text-embedding-3-small (OpenAI) | 1536 | 质量/成本平衡 | MVP,高容量 |
| Voyage-3 | 1024 | 代码处理优秀 | 技术文档 |
| BGE-M3 (开源) | 1024 | 多语言,本地部署 | 隐私要求,避免供应商锁定 |
| Cohere embed-v4 | 1024 | 搜索 + 分类 | 多模态,多语言 |
显示每个选择的数值分数和理由。
使用完全相同的结构生成:
# 架构文档 — [解决方案名称]
**日期:** [日期] | **版本:** 1.0 | **作者:** [用户]
## 1. 上下文与问题
[2-3 段:业务问题、用户、现状]
## 2. 选择的方法
[选择的方法 + 权衡表 + 理由]
## 3. 高层架构
[完整系统的 Mermaid 图表]
### 3.1 分层视图
[带组件的分层图表]
### 3.2 数据流视图
[从用户输入到响应的顺序图]
## 4. 分层详情
### 4.1 表示层
- 组件:[列表]
- 技术:[选择 + 理由]
- 接口:[暴露的 API]
### 4.2 编排层
- 组件:[列表]
- 技术:[框架 + 理由]
- 模式:[同步/异步,重试,熔断器]
### 4.3 智能层
- LLM 模型:[选择 + 带分数的理由]
- 检索管道:[策略 + 理由]
- 护栏:[应用了哪些保护措施]
### 4.4 数据与索引层
- 向量数据库:[选择 + 带分数的理由]
- 嵌入:[模型 + 维度 + 理由]
- 分块:[策略 + 大小 + 理由]
- 摄取:[文档管道,频率,格式]
### 4.5 基础设施层
- 云:[提供商 + 服务]
- 计算:[实例类型,如适用 GPU]
- 监控:[工具,关键指标]
- CI/CD:[部署流水线]
## 5. 图表
### 5.1 架构图 (Mermaid)
[完整的 C4 图或流程图]
### 5.2 顺序图 — 主流程
[Mermaid 顺序图:用户 → 前端 → 编排器 → 检索 → LLM → 响应]
### 5.3 数据摄取图
[Mermaid:来源 → 提取 → 分块 → 嵌入 → 存储]
## 6. 架构决策记录 (ADRs)
### ADR-001:[标题]
- **上下文:**[为什么需要这个决策]
- **决策:**[决定了什么]
- **评估的替代方案:**[考虑了哪些其他方案]
- **后果:**[接受的权衡]
[为每个关键决策重复]
## 7. 成本估算
| 组件 | 服务 | 月度估算成本 |
|-----------|---------|----------------------|
| LLM API | [提供商] | $[X] |
| 向量数据库 | [服务] | $[X] |
| 计算 | [实例] | $[X] |
| 存储 | [类型] | $[X] |
| **总计** | | **$[X]** |
⚠️ 估算基于[假设用量]。根据实际使用情况调整。
## 8. 风险与缓解措施
| 风险 | 可能性 | 影响 | 缓解措施 |
|--------|-------------|---------|-----------|
| | | | |
## 9. 实施路线图
### 阶段 1:MVP ([X] 周)
- [用于验证的最小组件]
### 阶段 2:生产环境 ([X] 周)
- [可扩展性,监控,安全性]
### 阶段 3:优化 ([X] 周)
- [微调,高级 RAG,持续评估]
## 10. 假设与限制
[所有标记为"待定义"的列表 + 设计限制]
每周安装数
1
仓库
首次出现
1 天前
安全审计
安装于
zencoder1
amp1
cline1
openclaw1
opencode1
cursor1
Con el material que el usuario comparta, extrae y organiza:
Mapa del sistema (qué piezas tiene y cómo se conectan):
Patrón arquitectónico detectado:
Si audiencia es NO TÉCNICA (dirección/inversores):
Usa estas reglas:
Tabla de analogías para audiencia no técnica:
| Concepto técnico | Analogía accesible |
|---|---|
| RAG | "Es como un empleado que antes de responder una pregunta, consulta el archivo de la empresa para dar la respuesta correcta" |
| Vector Database | "Un catálogo inteligente que encuentra documentos por significado, no solo por palabras exactas — como un bibliotecario experto" |
| Embedding | "Traducir texto a un código numérico que captura su significado, como si cada párrafo tuviera una huella digital" |
| LLM | "Un asistente que ha leído millones de documentos y puede redactar, resumir y responder, pero no 'sabe' nada de tu empresa sin ayuda" |
| Chunking | "Dividir un libro en fichas temáticas para que el asistente pueda encontrar rápidamente la ficha relevante" |
| Fine-tuning | "Entrenar al asistente con ejemplos de tu empresa para que hable con tu tono y siga tus reglas" |
| API Gateway | "La recepción del edificio: controla quién entra, registra visitas y dirige a cada persona al piso correcto" |
| Pipeline de datos | "La cadena de montaje que transforma documentos brutos en información lista para usar" |
| Guardrails | "Los límites de seguridad que evitan que el asistente diga algo incorrecto o inapropiado" |
| Orquestador | "El director de orquesta que coordina qué instrumento (componente) toca en cada momento" |
| Cache | "Una memoria de corto plazo: si alguien hizo la misma pregunta hace 5 minutos, no vuelve a buscar" |
| Token | "Una unidad de texto (aproximadamente ¾ de una palabra). Es la 'moneda' con la que se cobra el uso de IA" |
| Latencia | "El tiempo que tarda el sistema en responder, como el tiempo de espera en un restaurante" |
| Reranking | "Un segundo filtro: después de buscar 20 documentos, un experto los reordena para poner los mejores primero" |
| Context window | "La 'mesa de trabajo' del asistente: cuánta información puede tener frente a él al mismo tiempo" |
Si audiencia es TÉCNICA:
Genera SIEMPRE un diagrama, adaptado a la audiencia:
Para no técnicos — cajas con nombres descriptivos:
graph LR
Usuario[👤 Usuario hace pregunta] --> Buscador[📚 Buscador de documentos]
Buscador --> Asistente[🤖 Asistente IA]
Asistente --> Respuesta[💬 Respuesta con fuentes]
Para técnicos — componentes reales:
graph TD
Client[Web App / API] --> Gateway[API Gateway]
Gateway --> Orch[Orchestrator - LangChain]
Orch --> Retrieval[Retrieval Pipeline]
Orch --> LLM[Claude Sonnet via API]
Retrieval --> VDB[(Qdrant - Vector DB)]
Retrieval --> BM25[BM25 - Keyword Search]
LLM --> Guards[Guardrails + Citation]
Guards --> Client
Estructura del documento de análisis:
# Análisis de Arquitectura — [Nombre del Proyecto]
## ¿Qué es esto? (1 párrafo, comprensible para cualquiera)
## ¿Cómo funciona? (adaptado a audiencia)
[Diagrama Mermaid]
[Explicación por capas/componentes]
## Componentes principales
| Componente | Qué hace | Tecnología | Analogía |
|-----------|----------|-----------|---------|
## Flujo de datos (paso a paso)
1. [Paso 1 — en lenguaje de la audiencia]
2. [Paso 2...]
## Puntos fuertes de la arquitectura
- [Lo que está bien diseñado y por qué]
## Oportunidades de mejora
- [Lo que podría mejorarse y por qué]
## Riesgos identificados
- [Riesgos técnicos o de negocio]
Después del análisis, pregunta: "¿Quieres que diseñe una versión mejorada o una arquitectura nueva basada en esto?" Si SÍ → Transición a Modo DISEÑAR (Fase 1).
Fase 1 → Fase 2 → Fase 3 → Fase 4 → Fase 5
Brainstorming Selección de Diseño de Tech Stack Documento de
Arquitectónico Enfoque Capas y Evaluación Arquitectura
Ejecuta TODAS las fases secuencialmente. Cada fase produce entregables que alimentan la siguiente.
Inspirado en el patrón Brainstorming de Superpowers (obra/superpowers).
NO diseñes de inmediato. Primero, explora el problema con el usuario usando un proceso estructurado de brainstorming que refine ideas vagas en requisitos claros.
Reglas del brainstorming:
Flujo del brainstorming:
Explorar contexto → Preguntas clarificadoras (1 a la vez) →
Proponer 2-3 enfoques → Presentar diseño por secciones →
¿Usuario aprueba? → NO: revisar → SÍ: Avanzar a Fase 2
Paso 1.1: Explorar contexto del proyecto Haz ESTAS preguntas, UNA POR UNA, esperando respuesta antes de la siguiente:
Paso 1.2: Requisitos funcionales de IA (una pregunta a la vez)
Paso 1.3: Restricciones (una pregunta a la vez)
Marca vacíos como "⚠️ POR DEFINIR".
Paso 1.4: Proponer 2-3 enfoques
Basándote en las respuestas, propón 2-3 enfoques arquitectónicos alternativos. Para CADA enfoque describe en ~100 palabras:
Presenta los enfoques y ESPERA a que el usuario elija o pida cambios. Escala cada sección a su complejidad: pocas frases si es directo, más detalle si es matizado.
Paso 1.5: Validación
Antes de avanzar a Fase 2, confirma con el usuario:
Solo avanza a Fase 2 cuando el usuario confirme.
Usa el árbol de decisión para determinar el enfoque arquitectónico. Lee resources/decision-frameworks.md para los detalles completos.
¿La solución necesita conocimiento actualizado o específico del dominio?
├─ SÍ → ¿Qué tipo de conocimiento?
│ ├─ Documentos/datos propios → RAG
│ ├─ Comportamiento específico del dominio → Fine-tuning
│ └─ Ambos → Híbrido (RAG + Fine-tuning)
│
├─ NO → ¿Necesita ejecutar acciones?
│ ├─ SÍ → ¿Complejidad?
│ │ ├─ 1-3 herramientas, flujo lineal → Agente simple (ReAct)
│ │ └─ Múltiples pasos, bifurcaciones → Multi-agente
│ └─ NO → Prompt engineering (suficiente con LLM base)
│
└─ Mejor resultado posible
└─ Híbrido: RAG + Fine-tuning + Agentes
Evaluación de trade-offs (obligatoria):
| Criterio | Prompt Engineering | RAG | Fine-tuning | Híbrido |
|---|---|---|---|---|
| Tiempo a MVP | ⭐⭐⭐⭐⭐ (días) | ⭐⭐⭐⭐ (semanas) | ⭐⭐ (meses) | ⭐ (meses) |
| Conocimiento actualizado | ❌ | ✅ | ❌ | ✅ |
| Precisión en dominio | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Costo operativo | $ | $$ | $$$ | $$$$ |
| Complejidad de infra | Baja | Media | Alta | Muy Alta |
| Control de comportamiento | Bajo | Medio | Alto | Muy Alto |
| Alucinaciones | Altas | Bajas (con retrieval) | Medias | Muy Bajas |
Justifica la selección para el caso específico del usuario.
Diseña la arquitectura por capas. Lee resources/architecture-layers.md para la referencia completa de cada capa.
Arquitectura de referencia para soluciones RAG:
┌─────────────────────────────────────────────────────┐
│ CAPA DE PRESENTACIÓN │
│ Web App / Mobile / API / Chat Interface / Slack Bot │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ CAPA DE ORQUESTACIÓN │
│ API Gateway → Orchestrator (LangChain/LlamaIndex) │
│ Session Manager → Memory Store → Rate Limiter │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ CAPA DE INTELIGENCIA │
│ ┌──────────┐ ┌──────────┐ ┌───────────────────┐ │
│ │ Retrieval │ │ LLM │ │ Post-processing │ │
│ │ Pipeline │ │ Gateway │ │ (guardrails, │ │
│ │ │ │ │ │ formatting) │ │
│ └──────────┘ └──────────┘ └───────────────────┘ │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ CAPA DE DATOS E INDEXACIÓN │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Document │ │ Embedding│ │ Vector │ │
│ │ Pipeline │ │ Service │ │ Store │ │
│ │ (ingest, │ │ │ │ │ │
│ │ chunk, │ │ │ │ │ │
│ │ clean) │ │ │ │ │ │
│ └──────────┘ └──────────┘ └──────────┘ │
└────────────────────────┬────────────────────────────┘
│
┌────────────────────────▼────────────────────────────┐
│ CAPA DE INFRAESTRUCTURA │
│ Cloud Provider → Compute → Storage → Networking │
│ Monitoring → Logging → CI/CD → Security │
└─────────────────────────────────────────────────────┘
Para CADA capa, documenta:
Genera diagrama Mermaid para cada variante arquitectónica propuesta.
Lee resources/tech-stack-matrices.md para las matrices de selección completas.
Para CADA componente clave, evalúa opciones con criterios ponderados:
4.1 Modelo LLM
| Criterio | Peso | GPT-4o | Claude Sonnet | Claude Opus | Gemini 2.5 | Open Source (Llama/Mistral) |
|---|---|---|---|---|---|---|
| Calidad de respuesta | 25% | |||||
| Latencia | 20% | |||||
| Costo por token | 20% | |||||
| Context window | 15% | |||||
| Privacidad/On-premise | 10% | |||||
| Ecosistema/tooling | 10% |
4.2 Vector Database (si RAG)
| Criterio | Peso | Pinecone | Qdrant | Chroma | Weaviate | pgvector | Milvus |
|---|---|---|---|---|---|---|---|
| Facilidad de setup | 20% | ||||||
| Escalabilidad | 20% | ||||||
| Búsqueda híbrida | 15% | ||||||
| Costo | 15% | ||||||
| Filtering/metadata | 15% | ||||||
| Comunidad/soporte | 15% |
4.3 Framework de Orquestación
| Criterio | Peso | LangChain | LlamaIndex | Haystack | Custom |
|---|---|---|---|---|---|
| RAG nativo | 25% | ||||
| Flexibilidad | 20% | ||||
| Curva aprendizaje | 20% | ||||
| Producción ready | 20% | ||||
| Comunidad | 15% |
4.4 Estrategia de Chunking (si RAG)
| Estrategia | Cuándo usar | Chunk size típico |
|---|---|---|
| Fixed-size | Documentos homogéneos | 512-1024 tokens |
| Semantic | Contenido variado, múltiples temas | Variable |
| Document-based | PDFs estructurados, papers | Por sección |
| Sentence-window | Alta precisión necesaria | 1-3 oraciones + contexto |
| Parent-child | Necesitas contexto amplio + precisión | Hijo: 256, Padre: 2048 |
4.5 Estrategia de Embedding
| Modelo | Dimensiones | Ventaja | Cuándo usar |
|---|---|---|---|
| text-embedding-3-large (OpenAI) | 3072 | Mejor calidad general | Producción, presupuesto OK |
| text-embedding-3-small (OpenAI) | 1536 | Balance calidad/costo | MVP, alto volumen |
| Voyage-3 | 1024 | Excelente para código | Documentación técnica |
| BGE-M3 (open source) | 1024 | Multilingüe, on-premise | Privacidad, sin vendor lock |
| Cohere embed-v4 | 1024 | Búsqueda + clasificación | Multimodal, multilingual |
MUESTRA los scores numéricos y la justificación para cada selección.
Genera con EXACTAMENTE esta estructura:
# Documento de Arquitectura — [Nombre de la Solución]
**Fecha:** [fecha] | **Versión:** 1.0 | **Autor:** [usuario]
## 1. Contexto y Problema
[2-3 párrafos: problema de negocio, usuarios, situación actual]
## 2. Enfoque Seleccionado
[Enfoque elegido + tabla de trade-offs + justificación]
## 3. Arquitectura de Alto Nivel
[Diagrama Mermaid del sistema completo]
### 3.1 Vista de Capas
[Diagrama por capas con componentes]
### 3.2 Vista de Flujo de Datos
[Diagrama de secuencia: desde input del usuario hasta respuesta]
## 4. Detalle por Capa
### 4.1 Capa de Presentación
- Componentes: [lista]
- Tecnología: [selección + justificación]
- Interfaces: [APIs expuestas]
### 4.2 Capa de Orquestación
- Componentes: [lista]
- Tecnología: [framework + justificación]
- Patrones: [sync/async, retry, circuit breaker]
### 4.3 Capa de Inteligencia
- Modelo LLM: [selección + justificación con scores]
- Retrieval pipeline: [estrategia + justificación]
- Guardrails: [qué protecciones se aplican]
### 4.4 Capa de Datos e Indexación
- Vector DB: [selección + justificación con scores]
- Embedding: [modelo + dimensiones + justificación]
- Chunking: [estrategia + tamaños + justificación]
- Ingesta: [pipeline de documentos, frecuencia, formatos]
### 4.5 Capa de Infraestructura
- Cloud: [proveedor + servicios]
- Compute: [tipo de instancias, GPU si aplica]
- Monitoring: [herramientas, métricas clave]
- CI/CD: [pipeline de deployment]
## 5. Diagramas
### 5.1 Diagrama de Arquitectura (Mermaid)
[Diagrama C4 o flowchart completo]
### 5.2 Diagrama de Secuencia — Flujo Principal
[Mermaid sequence diagram: user → frontend → orchestrator → retrieval → LLM → response]
### 5.3 Diagrama de Ingesta de Datos
[Mermaid: source → extract → chunk → embed → store]
## 6. Decisiones Arquitectónicas (ADRs)
### ADR-001: [Título]
- **Contexto:** [por qué se necesita esta decisión]
- **Decisión:** [qué se decidió]
- **Alternativas evaluadas:** [qué más se consideró]
- **Consecuencias:** [trade-offs aceptados]
[Repetir para cada decisión clave]
## 7. Estimación de Costos
| Componente | Servicio | Costo mensual estimado |
|-----------|---------|----------------------|
| LLM API | [proveedor] | $[X] |
| Vector DB | [servicio] | $[X] |
| Compute | [instancias] | $[X] |
| Storage | [tipo] | $[X] |
| **Total** | | **$[X]** |
⚠️ Estimaciones basadas en [volumen asumido]. Ajustar según uso real.
## 8. Riesgos y Mitigaciones
| Riesgo | Probabilidad | Impacto | Mitigación |
|--------|-------------|---------|-----------|
| | | | |
## 9. Roadmap de Implementación
### Fase 1: MVP ([X] semanas)
- [componentes mínimos para validar]
### Fase 2: Producción ([X] semanas)
- [escalabilidad, monitoring, seguridad]
### Fase 3: Optimización ([X] semanas)
- [fine-tuning, advanced RAG, evaluación continua]
## 10. Supuestos y Limitaciones
[Lista de todo marcado como "POR DEFINIR" + limitaciones del diseño]
Weekly Installs
1
Repository
First Seen
1 day ago
Security Audits
Installed on
zencoder1
amp1
cline1
openclaw1
opencode1
cursor1
React 组合模式指南:Vercel 组件架构最佳实践,提升代码可维护性
109,600 周安装